关于机器学习——绪论(IMOOC)
课程来源:https://www.imooc.com/learn/717 部分为课程PPT,侵权删
笔记整理如下:
机器学习十大基本算法: https://blog.csdn.net/yg970514/article/details/79310723
机器学习:
即:“机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。” 一种经常引用的英文定义是:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.
机器学习共包含三大要素:学习主体、历史数据、规律。
如何从数据中寻找规律:观察数据、用模型刻画(拟合)规律
机器学习发展的原动力:
1.从历史数据中找出规律,把这些规律用到对未来自动做出决定
2.用数据代替expert(专家)
3.利用经济驱动、数据变现
机器学习的典型应用:
1.关联规则
购物篮分析:“啤酒 + 尿片——沃尔玛”——数据挖掘算法
案例:由于美国的超市大多数在镇子上,居民分布较散,所以很多人会选择一周去超市进行一次家庭采购。并且,经过一系列数据统计后,发现购买婴儿尿片的人,有很大几率会购买啤酒。这是由于一般情况下,家庭中负责采购的人员会是男士,所以超市尝试将两个捆绑销售(即套餐等),促进消费。即关联规则。
2.聚类
用户细分精准营销:移动电话卡的不同用户定位——不同用户不同套餐
通信集团通过划分学生、白领、出差人群、老人等人群,设置一系列的电话套餐,精确营销。
3.朴素贝叶斯和决策树
垃圾邮件(朴素贝叶斯)
信用卡欺诈——风险识别(决策树)
4.ctr预估和协同过滤
互联网广告——顺序排列问题(点击率预估)
推荐系统(协同过滤)
5.自然语言处理和图像识别
情感分析、实体识别(NLP)
图像识别——深度学习
还有:语音识别、个性化医疗、自动驾驶、人脸识别、手势控制、机器人等等多个方面
机器学习和数据分析的区别
1.数据特点:
交易数据 vs 行为数据(ML)
少量数据 vs 海量数据(ML)
采样分析 vs 全量分析(ML)
主要因为:数据分析主要针对于:个别维度的某一指标或多个有限指标,即只需要关注其交易数据,比较单一,数据量大时只能采取采样分析的方法。
而机器学习由于利用机器进行高速运算,并且随着半导体行业的不断发展,其算力将快速发展。其可对交易数据外,如用户浏览记录、用户搜索记录、用户活跃时间等行为数据进行监督存储,进行全量分析。更好发掘用户潜在需求。
2.解决业务问题不同:
即:数据分析主要针对于过去发生的事情进行总结,分析趋势。而机器学习则更多的是预测未来发生的事
3.技术手段不同:
数据分析常为用户驱动,利用数据分析师的交互式分析处理数据。而机器学习则是通过电脑程序自动处理数据,进行信息挖掘。
4.面向对象不同:
分析师(主要针对公司高层等客户) 机器学习主要取决于数据(质量决定结果)+ 算法
特征 | 数据分析 | 机器学习 |
信息请求动机 | 企业里正在发生的事情 | 基于正在发生的事情预测未来 |
数据力度 | 汇总数据 | 明细数据 |
维度数量 | 少量有限维度(个别类) | 大量维度 |
维度属性数量 | 少量 | 很多 |
数据集大小 | 小 | 大 |
分析方法 | 用户驱动 交互式分析
| 数据驱动 自动进行知识发掘 |
分析技术 | 多维,多视角分析 | 多维,多视角分析 |
状态 | 几十年已成熟、但落伍 | 发照阶段,部分成熟,趋势 |
机器学习算法分类:
算法分类(1):
有监督学习、无监督学习(聚类)、半监督学习
算法分类(2):
分类与回归
聚类
标注
算法分类(3):尤为重要!(训练思想不同)
生成模型
判别模型
常见算法:
详见blog(机器学习十大基本算法): https://blog.csdn.net/yg970514/article/details/79310723
相关算法拓展:
C4.5 K-Means SVM AdaBoost KNN 贝叶斯
FP—Growth LDA 逻辑回归 推荐算法 RF、GBDT
深度学习
机器学习解决问题的框架
1.确定目标:
业务需求、数据、特征工程
(数据的质量相当于是天花板的高度,而算法决定你能跳多高。)
2.训练模型:
定义模型、定义损失函数、优化算法
3.模型评估:
交叉验证、效果评估
接下来,会有一些机器学习相关笔记。作为小白,希望和大家共同学习。