1.Tom Mitchell提出机器学习的定义:
计算程序从经验E中学习,解决某一任务T,这个效果的好坏用性能用P来衡量。通过P测定在T上表现因经验E而提高。
例:对于跳棋游戏,经验E就是程序与自己下几万次跳棋,任务T就是玩跳棋,性能度P就是与新对手玩跳棋时赢的概率。
2.机器学习分为:
——监督学习
——无监督学习
——其他包括:增强学习、推荐系统
3.监督学习(每个样品都被明确标明,被清楚的告知了“正确答案”与“错误答案”)
给算法一个数据集,其中包括了正确答案,例:
第一种:一个房价数据集,其中每个样本给出正确价格。算法的目的是给出更多正确答案。
此种问题也可以叫做(1)回归性问题,即预测连续的数值输出。【设法预测连续值的属性】
第二种:机器学习来检查肿瘤的良性和恶行概率。算法的目的是给出更准确地判断。
此种问题也可以叫做(2)分类问题,即设法预测离散值。【可能会有更多类型】
一些算法不仅能处理两个三个或五个特征,而是能处理无穷多特征。
4.无监督学习(没有相同标签或都没有标签,数据集不知道可以做什么,每个数据点是什么,只有一个数据集)
其中第一种:聚类算法:无监督学习判定数据集包含多个不同的簇。
聚类算法实例:一个新闻事件搜索上万条新闻,然后自动将他们分簇成有关同一个主题的新闻。
我们只是告诉算法这有一堆数据,未知数据是什么,未知数据类型,甚至未知有哪些类型,但能自动找出这些数据的结构,能自动按得到的类型把这些个体分簇。
实例补充:
(1)组织大型计算机集群
(2)社交网络分析
(3)市场分割
(4)天文数据分析
其中第二种:鸡尾酒算法(找出数据的结构—>分离出混合声音,并且输出单个声音)
问题简述:两个人面对两个话筒讲话,两个话筒同时接收两个人讲话的混合音,通过无监督算法分离出距离话筒更近的单个人说