机器学习基本术语
常用符号表
基础术语
数据描述
机器学习的前提是需要有数据,针对数据的定义有以下几种概念:
- 数据集(data set):这组数据所组成的集合,用
D
表示; - 样本(sample) / 示例(instance):数据集中的一个事件或对象的描述 ;
- 样本空间(sample space):又称之为输入空间,由所有样本组成的空间;
- 属性(attribute) / 特征(feature):反映事物或对象在某方面的表现或特性的事项;
- 属性空间(attribute space):所有属性张成的空间;
- 特征向量(feature vector):将所有属性构成一个做标准,则每个样本都能找到自己的坐标位置,由于空间的每个点对应一个坐标向量,因此样本又称为特征向量;