一、什么是机器学习
目前,机器学习没有明确的定义。Arthur Samuel将机器学习定义为:在没有明确设置的情况下,使计算机具有学习能力的研究领域。这个理论是1959年提出的。Tom Mitchell于1998年提出,计算机程序从经验E中学习,解决某一任务T,进行某一性能度量P。通过P测定在T上的表现因经验E而提高。例如跳棋游戏,经验E就是与自己下几万次跳棋,任务T就是玩跳棋,性能度量P就是与新对手玩跳棋时赢的概率。又比如在处理垃圾邮件的机器学习过程中,任务T是分类邮件,正确归类邮件的比例是性能度量P,观察用户是否把该邮件分类为垃圾邮件是经验E。
二、机器学习的类别
机器学习最主要的两类是监督学习和无监督学习。简单来说,监督学习就是我们会教计算机做某件事情,而无监督学习是让计算机自己学习。除此之外,还有强化学习和推荐系统。
三、监督学习
监督学习是指,我们给算法一个数据集,其中包含了正确答案,算法的目的是预测出每一个样本的的正确答案。它也被称为回归问题,这里的回归指的是我们想要预测连续的数值输出。回归这个术语是指,我们设法预测连续值的属性。与回归相对应的是指分类。分类是指我们社法预测一个离散值输出。
总的来说,回归问题是通过算法预测得到一个具体的值,比如房子的价格。分类问题是通过算法预测某个样本的属性,比如肿瘤是恶性还是良性。
四、无监督学习
无监督学习中的数据集是没有标签的例如“张三”,“男”,“24岁”,“身高178cm”,没有任何标记。
无监督学习就是运行一个聚类算法,把不同的个体归入不同的类或归为不同类型的人。
无监督学习或聚类算法在奇特领域也有应用:1)组织大型的计算机集群;2)社交网络的分析;3)市场细分;4)天文数据分析。
无监督学习包括聚类算法和鸡尾酒会算法。
1、聚类算法
聚类算法被用在很多地方,比如新闻分类,基因分组等。我们只需要告诉算法,这里有一堆数据,我们不知道他们是什么类型、也不知道有哪些类型,但是聚类算法可以把相似的样本聚集到一起。
2、鸡尾酒会算法
“鸡尾酒会问题”(cocktailparty problem)是在计算机语音识别领域的一个问题,但是当说话的人数为两人或者多人时,语音识别率就会极大的降低,这一难题被称为鸡尾酒会问题。
代码:[W,s,v]=svd((repmat(sum(x.*x,1),size(x,1),1).*x)*x’);