定义(Arthur Samuel 1959):
在不直接针对问题进行编程的情况下,赋予计算机学习能力的研究领域。
例:Arthur的下棋程序,计算走每一步获胜的概率,最终打败程序作者本人。(感觉使用决策树思想)
定义2(Tom Mitchell 1998):
一个合理的学习问题应该这样定义:对一个计算机程序来说,给它一个任务T和一个性能测量方法P,如果在经验E的影响下,P对T的测量结果得到了改进,那么就说改程序从E中学习了。
如上例:E:程序不断和自己下棋的经历,T:下棋,P:和人类选手对弈的胜率
课程的四大部分:
1、 有监督学习
(1) 回归问题
例:收集某地房屋价格统计
房屋大小和价格对应情况:
画出一条拟合曲线,就可以通过房屋大小估计价格。
- 有监督学习即给出一个数据集(正确的房屋价格及对应大小)
- 此例为回归问题。回归意味着需要预测的变量是连续的
(2) 分类问题
分类问题中需要处理的变量是离散的
例:判断肿瘤是恶性还是两性
- 收集肿瘤大小和恶性/良性数据,大小为横轴,是否是恶性为纵轴(只有0,1)画图
- 肿瘤可能由多个因素导致,引入年龄,大小为横轴,年龄为纵轴,恶性以叉表示,良性以圆圈表示画图,分析患肿瘤的区域
- 还可引入更多属性,画在多维空间中
- 无限维空间如何处理?将无限维映射到内存的算法?
2、 学习理论
学习理论即解释学习型算法有效的原因(学习算法的理论基础)
寻找什么样的算法能很好地近似不同的函数,训练集的规模是否合适
3、 无监督学习
例:如上述肿瘤例子,图中的点不知道正确答案,而是由你从中找去一定的结构,即聚类。
应用于生物基因工程,图像处理,计算机视觉等领域
例:鸡尾酒会问题
在嘈杂的鸡尾酒会中,将你感兴趣的声音提取出来
运用两个不同位置的麦克分开来自不同位置的声音
还能应用于文本处理等领域
使用ICA算法,Matlab一行代码即可解决
4、 强化学习
通过决策产生的结论或对或错,故产生一系列的决策。
例:对一个模型飞机编写一个起飞程序,飞机在程序做了一连串错误决策是才会坠毁,只要做出连续的整体还不错的决策,即可保持飞机正常飞行
强化学习的基本概念:回报函数(正反馈及负反馈),程序做出正确决策时给出正反馈,反之亦然。
程序不断做出决策,在不断尝试获得尽量多的正反馈时,逐渐学习并做出正确决策
关键在于要定义什么是正确决策,什么是错误决策,再设计算法获取尽量多的正反馈