Arthur Samuel(1959):在没有明确设置的情况下,使计算机具有学习能力的研究领域。
Tom Mitchell(1998):计算机程序从经验E中学习,解决某一任务T,测量某一读能度量P,P在经验E的影响下在任务T中会有更好的表现。
例子:
假设你的邮件观察程序观察你将哪些邮件标记为垃圾邮件,基于你标记的垃圾邮件学会了更好的过滤垃圾邮件,在下列选项中任务T是什么 ?
- 给邮件分类成有标记和没标记的 T
- 观察你是如何标记邮件的 E
- 正确分类标记 / 没标记邮件的数量 P
机器学习最主要又分成两类,监督学习和无监督学习。
1、监督学习
教会计算机做某件事情
1.1、回归(Regression)
例子:
横坐标是房子的大小,而纵坐标是房子的总价,假设有一个房子的大小为75㎡,我想要知道他大概卖多少钱,可以用一条直线即一元函数来拟合这些数据,可以看到75㎡的房子大约150万,或者用其他函数来拟合,75㎡的房子大约200万.
监督学习是指我们给算法一个数据集,其中包括了正确答案,在上述例子中,我们给出了房价的数据集,在这个数据集中的每个样本,我们都给出正确的房价,而这个算法的目的就是可以给出更多的正确答案,预测到别的大小的房子大概可以卖出的价格。
这里的回归问题指的是我们想要预测连续的数值输出,在上个例子中也就是价格。但在技术上房价是有元有角有分,实际是个离散值。不过通常我们把房价看成一个实数。回归这个术语是指我们设法预测连续值的属性。
1.2、分类(Classify)
例子:
横坐标表示肿瘤大小,纵坐标“0”表示良性肿瘤,而“1”表示恶性肿瘤。图中只有肿瘤大小一个属性或者说特征。如图红色“×”的表示恶性肿瘤,蓝色的“×”表示良性肿瘤,预测箭头所指肿瘤大小为良性或者恶性的概率为多少?
分类问题就是指,我们设法预测一个离散值的输出,0或1,良性或恶性,但在实际分类问题中,离散可能的值或许更多,在上述例子中即为在良性和恶性肿瘤之间还有别的状态。
我们也可以用不同的符号来表示良性或恶性肿瘤,“⚪”表示良性,而“×”表示恶性。
在上述的例子中,我们只有肿瘤大小一个属性,但在实际运用中属性会更多,两个以至于无穷,以下就是有两个属性肿瘤大小和年龄。我们用直线把恶性肿瘤和良性肿瘤隔开,分成两个区域,当”●“落在直线下方时可知良性的概率比较大。
2、无监督学习
让计算机自己学习去做某件事情
例子:
对于监督学习,我们可能会给定一个数据集,里面包含着正确的数值,对应的房价,肿瘤的良性恶性。但是在无监督学习中,我们的数据与之前不同,它们都没有标签或者都具有一样的标签。
对于给定的数据集,无监督学习可能判定该数据集有两个不同的簇,这就是聚类算法。
鸡尾酒算法:从麦克风中分离出在鸡尾酒宴会混合的人声音。