目录
人工智能:让机器人变得像人一样拥有智能的学科
机器学习:就是让计算机像人一样能从数据中学习出规律的一类算法
深度学习:神经网络类的机器学习算法
人工智能具体应用领域:
CV(computer vision)计算机视觉:让计算机拥有视觉能力,比如说,人脸识别、人脸分类、目标检测之类的
NLP(natural language processing)自然语言处理:让计算机拥有语言能力
RS(recommender system)推荐系统:让计算机精确分析出人的喜好
第一章 绪论
基本术语
1.数据集:每条记录是关于一个事件或对象的描述,称为一个“事例”或“样本”;
2.属性:反映事件或对象在某方面的表现或性质的事项,称为属性或特征;
3.属性空间(样本空间、输入空间):属性张成的空间;
4.标记:关于示例结果的信息;拥有了标记信息的示例,称为样例;
5.分类:若预测的是离散值,此类学习任务称为分类(classification);
二分类:只涉及两个类别的任务,一个为正类,一个为反类;
涉及多个类别,称为多分类任务;
6.回归:若预测值是连续值,此类学习任务称为回归(regression);
7.聚类:将训练集中是西瓜分成若干个组,每组称为一个簇;
8.监督学习/无监督学习:根据训练数据是否拥有标记信息;有标记的是监督学习(分类、回归),无标记的是无监督学习(聚类);
9.泛化:学得的模型适合用于新样本的能力,称为泛化能力;机器学习的木币哦啊是使学得的模型能够很好的使用与“新样本”;
10.归纳和演绎:是科学推理的两大基本手段,归纳是从特殊到一般的泛化过程,即从具体的实施归结出一般性规律;演绎是从一般到特殊的泛化过程,即从基础原理推演出具体状况;
11.版本空间:与已知数据集一致的多有假设的子集集合;
12.假设空间:所有属性取不同的值形成的假设样本集合;
第二章 模型评估与选择
2.1经验误差与过拟合
1.错误率:,m为样本个数,a为分类错误样本个数;
2.精度:精度=1-错误率;
3.误差:学习器的实际预测输出与样本的真实输出之间的差异;
4.经验误差:学习器在训练集上的误差,又称为训练误差;训练集上差异的平均值;
5.泛化误差:学习器在新样本上的误差;在新样本(训练集中未出现的样本)上差异的平均值;
6.过拟合:吧训练样本自身的一些特点当作了所有潜在样本具有的一般性质,这样导致泛化性能下降;
2.2评估方法
测试集:与训练集互斥,也是从样本真实分布中独立同分布采样而得,来测试学习器对新样本的判别性能,即测试样本尽量不在训练集中出现,未在训练过程中使用过;
1.留出法:直接将数据集D划分为两个互斥的集合,一个训练集S,一个测试集T;
需要注意的是:训练集与测试集的划分尽可能保持数据分布的一致性,避免引数据划分过程引入额外的偏差而对最终结果产生影响;
2.交叉验证法:将数据集D划分为k个大小相似的互斥子集,每个子集都尽可能保持数据分布的一致性。然后每次用k - 1个子集的并集作为训练集,余下的作测试集,这样就可以获得k组训练/测试集,从而可进行k次训练和测试,最终返回这k个测试结果的均值;
3.自助法:以自助采样法为基础,每次从数据集D中挑选一个样本拷贝到D’中,再将该样本放回到D中使得下次仍有可能被采到。重复m次就得到包含m个样本的数据集D’。求极限可以算出约有数据总量的1 / 3 不包含在D’中,于是可以用D’作为训练集,D \ D’作为测试集,这样的测试结果也成为“包外估计”;
自助法适合于数据集较小,难以有效划分训练\测试集;