目录
什么是ML
机器学习是人工智能的一部分,是一门开发算法和统计模型的科学,致力于让计算机通过海量数据和算法来模拟和实现人类的学习方式,并给出更可靠的预测或决策。
(机器学习不是某种具体的算法,而是很多算法的统称)
ML的基本思路
- 把现实生活中的问题抽象成数学模型,并且很清楚模型中不同参数的作用
- 利用数学方法对这个数学模型进行求解,从而解决现实生活中的问题
- 评估这个数学模型,是否真正的解决了现实生活中的问题,解决的如何?
传统机器学习方法:
- 数据输入
- 特征工程(Feature Engineering)
- 特征选取(Feature Selection)
- 分类/回归(Classification/Regression)
- 结果
深度学习方法:
- 数据输入
- 深度学习
- 结果
(来源:一文看懂机器学习「3种学习方法+7个实操步骤+15种常见算法」)
ML的重要性
目前,可用数据数量呈现爆发式增长,计算机处理和数据粗存变得更便宜、更强大,准确的ML模型可以提供更快更精准的预测,对企业来说,可以挖掘出客户信息价值,保持领先竞争力,识别获利机会或避免未知的风险,对个人和社会来说,ML在医疗,教育和推荐引擎方面的应用带来了极大的便利。
ML的算法
ML的常见算法可以分成五类
- 监督学习:给定一个数据集,并且给定正确答案(Y),机器通过数据来学习正确答案的计算方法
- 回归
- 线性回归(Linear Regression)
- 多项式回归(Polynomial Regression)
- 岭回归(Ridge Regression)
- Lasso Regression
- 分类
- KNN
- 逻辑回归(Logistic Regression)
- 朴素贝叶斯(Naive Bayesian Algorithm)
- 支持向量机(Support Vector Machine)
- 决策树(Decision Tree)
- 回归
- 无监督机器学习:给定的数据集没有正确答案(Y),所有的数据都是一样的,任务是从给定的数据集中,挖掘出潜在的结构
- 聚类
- Fuzzy C-Means
- K-Means
- 关联规则学习
- 降维
- 聚类
- 半监督学习:因为使用标记和未标记的数据进行训练。通常,未标记的数据量大于标记的数据量,并且算法使用标记的数据来了解未标记的数据。
- 半监督SVM
- 半监督分类
- 半监督回归
- 半监督聚类
- 半监督降维
- 集成学习:将多个分类器组合,从而实现一个预测效果更好的集成分类器
- 随机森林(Random Forest)
- XGBoost
- LightGBM
- AdaBoost
- 强化学习:通过与环境的互动产生操作并发现错误和进行奖励的学习方法
- Genetic Algorithm
- Q- learning
- DQN
- A3C
- SARSA
- 神经网络:
- CNN
- RNN
- GAN
- Autoencoder
ML的优点/缺点
机器学习模型的优点:
- 可以识别人类可能遗漏的数据趋势和模式。
- 设置后无需人工干预即可运作。例如,网络安全软件中的机器学习即使没有管理员输入,也能持续监控和识别网络流量的异常情况。
- 结果会随着时间推移越来越准确。
- 可以在动态、大容量和复杂的数据环境中处理各种数据格式。
机器学习模型的缺点:
- 初始训练成本较高且非常耗时。如果没有充足的数据,可能难以运作。
- 如果在内部设置硬件,则机器学习是一种需要大量初始投资的计算密集型流程。
- 在没有专家帮助的情况下,可能很难正确解释结果并消除不确定性。
(来源:什么是机器学习?– 企业机器学习新手指南 – AWS)
ML的应用
医疗健康:数据科学家可以通过存储数百万的扫描图片和相应诊断来训练医学应用程序,使该程序能够根据 X 光图片诊断癌症。
自动驾驶
垃圾邮件过滤
语音识别
智能家居
农业
计算机视觉
(未完)