西瓜书学习(一)
数据集中每条记录是关于一个事件或者对象的描述,称为一个“示例”或者“样本”,反映事物或对象在某些方面的表现或者性质,例如“色泽”、“根蒂”称之为“属性”或者”特征“,
然后对“属性”进行取值,称为“属性值”。属性展开形成"属性空间“、“样本空间”、“输入空间”,每个样本度可以找到自己的坐标点,每个点对应一个坐标向量,即为“特征向量”。
D={X1;X2...Xm}表示包含m个样本示例的数据集,每个样本具有d个属性描述,则每个示例表示为Xi=(xi1;xi2;....xid)是d维样本空间中的一个向量.xij表示为xi在第j个属性上的取值。d为维数。
从数据学得模型叫”学习“或者'训练“,这个过程需要通过学习某个算法。”训练数据“-”训练样本“-”训练集“。学习过程为了给数据和参数空间实例化。
建立关于“预测”的模型,要有“数据”和“结果”。例如“((色泽=青绿;根蒂=蜷缩;声音=浑浊),好瓜)”,“好瓜”称为“lable"。yi是xi的标记。
预测的是离散值,例如“好瓜”、“坏瓜”称为“分类(classification);预测是连续值,例如西瓜成熟度为0.97 、0.35、称为回归(regression)。通过训练集{(x1,y1),((x2,y2)...(xm,ym)}进行学习,建立一个输入空间到输出空间的映射:对于二分类任务为”{-1,1}或者{0,1}对于多分类任务Y=R,R为实数集。“聚类”将训练集上西瓜分为若干组,每组一个“簇"。
分类和回归是监督学习,聚类为无监督学习。从样例中学习“是归纳的过程。