概要
本文是对于 wiki Machine learning 的简化翻译,从而更容易使读者抓住重点
机器学习分为3大类
1.监督学习
该算法从输入数据和输出数据构建数据模型。
例如对于图像识别数据训练集,它包括输入,即具有目标图像的图像,以及输出,其是指示图像是否属于分类的标签。
2.无监督学习
算法仅根据输入数据建立数据模型,而不需要输出数据。因此,它用于分析数据结构,如分组或聚类。
3.活跃学习
该算法以有限的输入访问所需的输出
4.加强学习
算法在动态环境中给出正或负强化形式的反馈,例如无人驾驶或对抗人类对手的游戏人工智能。
理论
学习者的输出是从大量数据经验中泛化出来的,然后用于准确地执行新任务或新数据预测。由于训练数据集有限而且未来不确定,因此算法无法保证正确性能。因此,偏差 - 方差 - 分解的方法来限定误差。
模型
1.人工神经网络
神经网络本身不是算法,而是实现不同算法的框架。从前一层接收信号的神经元将通过其算法(非线性)处理,然后将结果传递给下一层中的连接神经元。通常,信号是用于计算的实数。神经元之间的连接称为边缘,边缘和神经元具有将在数据训练过程中调整的权重。深度学习通常由多个隐藏层组成。
2.支持向量机
SVM是用于分类和回归的相关监督学习方法的集合。虽然它是线性模型,但它可以通过使用内核技巧(kernel trick)执行非线性分类,内核技巧隐式地将其输入映射到高维特征空间。
3.贝叶斯网络
该理论是一种非循环(周期)图形模型,是表示一组随机值的概率图形模型。例如,贝叶斯网络可以代表症状和疾病之间的非循环(周期)关系。
局限性
由于有限的数据集,或者错误的数据模型,因此有效的机器学习是很困难。例如,缺乏数据,数据偏差,甚至错误的算法。
偏差
机器学习方法很容易受到不同的数据偏差的影响,例如,医疗保健测量误差或因为种族问题而已经存在偏见的一群客户。