目录
一 机器学习简介
1. 机器学习的基本流程:
对大量的历史数据,进行学习,从而生成经验模型,利用经验模型指导业务,所以,这里面有2个关键点:数据+模型,其中数据决定了高度,模型决定了达到高度的方法。
2. 机器学习岗位职责
数据处理(采集+去噪)
模型训练(特征+模型)
模型评估与优化(MSE, F1-score,AUC+调参)
模型应用(A/B测试)
3. 机器学习分类
3.1 机器学习分类一(根据不同的用途)
3.1.1 监督学习:
(1)分类:label 是离散的(即预测的是类别), 模型的输出是概率分布
eg:三分类问题输出的例子:[0.2, 0.7, 0.1]
损失函数:
(2)回归:label是连续的(预测的是一个有大小的值), 模型输出是一个实数值
eg:在这里说预测值更合适,比如房价,无人驾驶中方向盘转动的角度
损失函数:
预测值与真实值的差距
平方差损失
绝对值损失
在一些情况下,可以将连续的预测值量化,从而将回归问题转化为分类问题。
3.1.2 非监督学习:
(1)对数据进行降维:
特征提取:
特征压缩:PCA,将关联度(相似性)高的特征变为一个。
如手写数字的识别,相邻的像素点灰度值近似,因此可用一个像素点代替周围的多个,从而减少特征数量,降低维度
数据降维的意义:数据可视化。如把高维降到二维,三维,方便作图,将数据的具体分布等展现出来,使人们更好的理解。
(2)异常检测
3.1.3 半监督学习
实际中,可能有些样本的标签值(也可以表示回归中的预测值)丢失,有些样本有标签,有些没有标签,则称之为半监督学习。
半监督学习的方法:一般先用非监督学习手段对数据做处理,之后使用监督学习的手段做模型的训练和预测。
3.2 机器学习分类二(根据是否能适应环境的变化)
3.2.1 批量学习
(1)定义:批量学习是指用一批数据将模型训练完成后,训练数据就被丢弃。在实际环境中输入样本,预测样本,模型不再更新。
(2)如何和适应环境的变化?
定时重新批量学习,但计算量大,某些业务可能需要频繁的重新批量学习。
3.2.2 在线学习
(1)定义:
能及时反映新的数据变化,也适用于数据量大,无法完全批量学习的环境。
(2)新的(异常)数据带来不好的影响怎么办?
加强对数据进行异常监控(用到非监督学习中的异常监测功能)
3.3 机器学习分类三(根据参数进行划分)
3.3.1 参数学习
如先假设:f(x)=ax+b,根据点的坐标(样本),训练,学习得到参数a,b的值
3.3.2 非参数学习(对这个还不是特别理解,后续更新)
不对其进行过多的假设,但不代表没有参数。
3.4 机器学习分类四(单输出和多输出)
4. 机器学习应用举例
分类问题——图像识别,垃圾邮件识别
回归问题——股价预测,房价预测
聚类问题——分组
排序问题——点击率预估,推荐
生成问题——图像生成,图像风格转换,图像文字描述生成
二 . 深度学习
1. 深度学习是什么(算法集合)
卷积神经网络
循环神经网络
自动编码器
稀疏编码
深度信念网络
限制玻尔兹曼机
深度学习+强化学习=深度强化学习
2. 深度学习能干什么
以卷积神经网络和循环神经网络为例
三. 总结和思考
四. 一些问题
五. 资料收集
深度学习有关课程 Google工程师亲授 Tensorflow2.0入门到进阶-慕课网实战
参考文献