机器学习准备之剑:科学计算库
常用的科学计算库的使用为之后的机器学习内容提供坚实的基础,以下为本篇内容知识框架。
为什么要学机器学习?
昨日,滴滴测试的最新自动驾驶系统在上海路况可以连续“五小时无人接管”安全行驶,谷歌“无人车之父”Sebastian Thrun都称赞有佳。随着国内也高度重视V2X(车联网)技术的推进工作,各地都在建成车路协同自动驾驶的相关设备和道路,又为实现真正的自动驾驶,进一步创造了条件。
上述现象充分表明,人工智能的时代已经到来,从网络安全、网络购物、社交网络、再到生物识别和自动驾驶,这些智能的背后依靠大数据为支撑的各种与机器学习相关的算法不断分析、不断提高,才有了如今的“智慧生活。根据有关数据显示,IT行业是目前平均收入最高的行业,其从业人员平均年薪已逾十万元,有经验的IT工程师平均年薪一般在12万元以上。
什么是人工智能?
人工智能(Artificial Intelligence, AI)是研究、开发用于模拟、、延申和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。简单来说,就是写一个程序,像人那样去思考、判断、逻辑推理,来服务各行各业。
人工智能的分支有哪些?
通讯、感知与行动是现代人工智能的三个关键能力,根据这些能力/应用对这三个技术领域:
- 计算机视觉(CV)
- 自然语言处理(NLP)
- 在 NLP 领域中,将覆盖文本挖掘/分类、机器翻译和语音识别
- 机器人
- …
计算机视觉发展历程
语音识别发展历程
机器人发展历程
什么是机器学习?
1.机器学习就是把无序的数据转换为有用的信息
2.从数据中自动分析获得模型,并利用模型为未知数据进行预测
3.机器学习的工作流程:获取数据、数据基本处理、特征工程、模型训练、模型评估
机器学习算法有哪些?
根据数据集组成不同,可以把机器学习算法分为:
- 监督学习(有目标值,适用于:连续变量分类、离散变量回归)
- 无监督学习(无目标值,适用于聚类)
- 半监督学习(训练集同时包含有标记样本数据和未标记样本数据)
- 强化学习(自动进行决策,并且可以做连续决策)
机器学习模型如何评估?
模型评估是模型开发过程不可或缺的一部分。它有助于发现表达数据的最佳模型和所选模型将来工作的性能如何。
按照数据集的目标值不同,可以把模型评估分为分类模型评估和回归模型评估。
分类模型评估
此类模型的评估方法主要有:
- 留出法、K折交叉验证法
- 自助法
留出法和交叉验证法中,由于保留了一部分样本用于测试,因此实际评估的模型所使用的训练集比总样本集少,这样就必然会引入一些因训练集样本规模不同而导致的估计偏差。
而自助法就很好的解决了这一问题,在减少训练样本规模不同造成的影响,同时还能比较高效地进行实验估计。
回归模型评估
回归任务中最常用的性能度量是均方根误差(RMSE)
其他评价指标:相对平方误差(Relative Squared Error,RSE)、平均绝对误差(Mean Absolute Error,MAE)、相对绝对误差(Relative Absolute Error,RAE)
拟合
当学习器(线性回归)把训练样本学得“太好了”,以至于把训练样本自身的特点都当作一般特性时,称之为“过拟合”。与之相反的“欠拟合”就是对一般特性还没有学好。
以西瓜书P24所示。学得一个有锯齿的叶子模型,过拟合则认为所有叶子必须有锯齿,欠拟合则认为只要是绿色的都是叶子,一棵树也是绿色的,就误认为是叶子!
深度学习
深度学习(Deep Learning)(也称为深度结构学习【Deep Structured Learning】、层次学习【Hierarchical Learning】或者是深度机器学习【Deep Machine Learning】)是一类算法集合,是机器学习的一个分支。
深度识别
现如今的深度学习可以识别黑眼圈动物,鸟,键盘,原型屋顶等。最实用的例子是:微信中 —> 扫一扫 -—>识物(可以识别花草、汽车、商品红酒、食品等)