认识机器学习
文章目录
机器学习的概念
机器学习是实现人工智能的手段,其主要研究内容是如何利用数据或经验进行学习,改善具体算法的性能
• 多领域交叉,涉及概率论、统计学,算法复杂度理论等多门学科
• 广泛应用于网络搜索、垃圾邮件过滤、推荐系统、广告投放、信用评价、 欺诈检测、股票交易和医疗诊断等应用
致力于研究如何通过计算的手段,利用经验(历史数据)来改善系统自身的性能[机器学习]。
从数据中产生模型的算法,即“学习算法”。
机器学习分类
机器学习一般分为下面几种类别 :
- 监督学习 (Supervised Learning)
- 无监督学习 (Unsupervised Learning)
- 强化学习(Reinforcement Learning,增强学习)
- 半监督学习( Semi-supervised Learning )
- 深度学习 (Deep Learning)
机器学习相关的基本术语
•学习(训练):从数据中学得模型的过程
•训练集:参与模型训练的样本集合
•测试:学得模型后,使用其样本进行预测的过程
•测试集:被预测的样本集合
•假设:学得模型对应的关于数据的某种潜在规律
•分类:输出结果是离散值
•回归:输出结果是连续值
•监督学习:训练样本有标记
•无监督学习:训练样本无标记
•泛化能力:学得模型适用于新样本的能力
•独立同分布:样本空间的全体样本都服从一个未知的分布,且相互独立
假设空间
归纳与演绎
归纳:
从特殊到一般的“泛化”:从样例(训练样本)中学习。
以如何判断西瓜的好坏为例:
根据已知数据集总结满足何种条件的西瓜是好瓜
色泽乌黑、根蒂蜷缩、敲声浊响的就是好瓜?
色泽乌黑、根蒂稍蜷、敲声沉闷的就不是好瓜?
演绎:
从一般到特殊的“特化”:从数学公理推导出定理。
假设空间
好瓜的假设空间:
若色泽、根蒂、敲声皆有3种取值,加上某种属性什么都不取和没有好瓜这个概念,