机器学习理论篇1(笔记)
历史数据->规律(数学函数、数学公式刻画规律)->未来不确定场景决策
数据分析(人为驱动)和机器学习(机器驱动)用数据替代专家
大数据->数据变现
离线机器学习(批处理)+在线机器学习(实时调整,电商、百度),二者算法稍有差异
机器学习的典型应用:
啤酒+尿布(关联规则)||用户细分精准营销(聚类)||垃圾邮件(朴素贝叶斯)||信用卡欺诈:用户风险识别(决策树)||互联网广告(ctr预估,线性逻辑回归)||推荐系统(协同过滤)||自然语言处理(情感分析、实体识别)||深度学习(图像识别)
机器学习和数据分析的区别:数据特点:行为数据vs交易数据
海量数据vs少量数据
全量分析vs采样分析
nosql(分布式+CAP)
解决业务问题不同:预测未来vs报告过去
技术手段不同
给用户使用vs给公司管理层
机器学习算法分类:
(1)有监督学习:分类算法,回归算法;无监督学习:聚类;半监督学习
(2)根据要解决的问题进行分类:分类与回归;聚类;标注
(3)重要:生成模型:各种结果概率;判别模型:最终结果//二者训练模型的思想不同
常见算法一览(自行百度;SVM支持向量机,FP-Growth,AdaBoost人脸识别)
机器学习解决问题的框架:
确定目标->业务需求->数据->特征工程(重要)
->训练模型(定义模型,定义损失函数,优化算法)->模型评估(交叉验证,效果评估)