机器学习笔记

王小白学习

已于 2022-09-22 17:13:34 修改

阅读量380

点赞数 1

文章标签：机器学习学习 python

于 2022-08-15 14:39:42 首次发布

本文链接：https://blog.csdn.net/weixin_44569345/article/details/126346446

版权

机器学习

黑马程序员3天快速入门python机器学习_哔哩哔哩_bilibili

1. 概述

1.1 机器学习、人工智能、深度学习关系

机器学习是人工智能的一个实现途径
深度学习是机器学习一个方法发展而来

1.2 定义

机器学习是从数据中自动获得模型，并利用模型对未知数据进行预测。

数据
模型
预测

1.3 算法分类

数据集： 特征值 + 目标值

1.3.1 监督学习

目标值	分类
类别	分类问题
连续型的数据	回归问题

（1）分类

K-近邻算法、贝叶斯算法、决策树和随机森林、逻辑回归

（2）回归

线性回归、岭回归

1.3.2 无监督学习

目标值	分类
无	无监督学习

聚类 K-means

1.4 开发流程

获取数据
数据处理
特征工程
机器学习算法训练 - 模型
模型评估
应用

1.5 资料

实战类书籍
机器学习 - 周志华 南京大学 西瓜书
统计学习方法 - 李航 清华大学出版社
深度学习 - 人民邮电出版社 花书

2. 特征工程

2.1 数据集

2.1.1 可用数据集

kaggle

UCI数据集

scikit-learn

2.1.2 数据集划分

测试集 20% ~ 30%

2.2 特征工程

数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已

2.2.1 特征抽取/特征提取

机器学习算法 - 统计方法 - 数学公式

（1）字典特征提取

类别 --> one-hot编码

（2）文本特征提取

单词作为特征

特征词出现个数
TF-IDF

TF-IDF文本特征提取: – 重要程度

**tf-idf作用：**评估一字词对于一个文件或一语料库中的其中一份文件重要程度

公式：
$tfidf_{i,j}=tf_{i,j} \times\ idf_{i}$
注：

tf ：词频，特定词语在文章出现频率。

idf：逆向文档频率，词语普遍重要性度量。 idf = log10 ( 总文件数目 / 包含该词语文件数目 )

例：一共有10000篇文章，10篇文章包含词1，1000篇文章包含词2。现有A、B两篇文章，都有100词，文章A出现1次词1，文章B出现10次词2，判断A与B文章的重要程度。

10000篇文章 – 语料库

10篇文章 – 词1

1000篇文章 – 词2

A（ 100词）: 1次“词1”

tf: 1 / 100 = 0.01

idf: log₁₀ ( 10000 / 10 ) = 4

tf-idf = tf * idf = 0.01 * 4 = 0.04

B（ 100词）: 10次“词2”

tf: 10 / 100 = 0.1

idf: log₁₀ ( 10000 / 1000 ) = 1

tf-idf = tf * idf = 0.1 * 1 = 0.1

（3）图像特征提取

（深度学习。。。）

2.2.2 特征预处理

无量纲化
- 归一化
- 标准化

（1）归一化

传统较小数据场景
$X'=\frac{x-min}{max-m} \\ X''=X'*(mx-mi)+mi$

注：作用于每一列，max 为一列最大值、min 为一列最小值，mx 和 mi 为指定区间值，通常默认mx为1、mi为0， $X^{''}$ 为最终结果

（2）标准化

$X'=\frac{x-mean}{\sigma}$

注：作用于每一列，mean 为平均值， $\sigma$ 为标准差。

2.2.3 特征降维

降低特征的个数，得到特征与特征之间不相关。

特征选择
主成分分析

(1)特征选择

过滤式
- 方差选择法 ———— 过滤方差小的
- 相关系数 ———— 特征与特征之间的相关程度

皮尔逊相关系数:

公式：
$\frac{n\sum xy - \sum x\sum y }{\sqrt{n\sum x^2 - (\sum x)^2}\sqrt{n\sum y^2 - (\sum y)^2}}$

特点：

介于 -1~1 之间

r > 0 : 表示两变量正相关
r < 0 : 表示两变量负相关
|r| < 0.4 : 低度相关
0.4 $\le$ |r| < 0.7 : 显著性相关
0.7 $\le$ |r| <1 : 高度线性相关

嵌入式
- 决策树
- 正则化
- 深度学习

(2)主成分分析

高维 --> 低维，更可能保留有用信息

应用：回归分析、聚类分析…

3. 分类算法

3.1 K-近邻算法（KNN）

根据‘邻居’ --> 推断‘类别’

3.1.1 定义

如果一个样本在特征空间中，K个最相似（即特征空间中最邻近）的样本的大多数属于一个类别，则该样本也属于这个类别。

3.1.2 距离公式

（1）欧氏距离

a(a₁,a₂,a₃)，b(b₁,b₂,b₃)
$\sqrt{(a_1 - b_1)^2 + (a_2 - b_2)^2 +(a_3 - b_3)^2}$

（2）曼哈顿距离 ———— 绝对值距离

（3）明可夫斯基距离

3.1.3 问题

K值过大，样本不均衡影响；
K值过小，样本异常值影响；

3.1.4 总结

（1）优点

简单、易于理解、易于实现、无需训练

（2）缺点

必须指定K值，K值选择不当，则分类精确度不能保证
惰性算法，对测试样本的计算量大，内存开销大

3.2 朴素贝叶斯算法

假定特征与特征之间是独立的

3.2.1 贝叶斯公式

$P(C|W)=\frac{P(W|C)P(C)}{P(W)}$

3.2.2 应用场景

文本分类
单词作为特征

3.2.3 拉普拉斯平滑系数

为了防止计算出的分类概率为0
$P(F1|C)=\frac{N_i + \alpha}{N + \alpha m}$
注： $\alpha$ 为指定的系数一般为1，m为训练文档中统计出的特征词个数。

3.2.4 总结

优点
- 对缺失数据不敏感，算法简单，常用于文本分类
- 分类准确度高，速度快
缺点
- 由于使用了样本属性独立性的特征关联，所以如果特征属性有关联时效果不好

3.3 决策树

特征的先后顺序 --> 高效决策

3.3.1 信息论基础

（1）信息

香农：消除不定性的东西

（2）信息熵

信息的衡量，信息量
$H(X)=-\sum_{i=1}^nP(x_i)log_bP(x_i)$

3.3.2 决策树划分依据之一 ———— 信息增益

特征A对训练数据集D的数据增益g(D,A)：
$g (D, A) = H (D) - H (D ∣ A)$

信息熵：
$H(D)=-\sum_{k=1}^K\frac{|C_k|}{|D|}log\frac{|C_k|}{|D|}$
条件熵：
$H(D|A)=\sum_{i=1}^n\frac{|D_i|}{|D|}H(D_i)=-\sum_{i=1}^n\frac{|D_i|}{|D|}\sum_{k=1}^K\frac{|D_{ik}|}{|D_i|}log\frac{|D_{ik}|}{|D_i|}$

3.3.3 总结

优点
- 可视化 - 可解释能力强
缺点
- 容易产生过拟合

3.4 随机森林

多个决策树

3.4.1 集成学习方法

生成多个预测/模型，选出最优做出预测

3.4.2 什么是随机森林

森林
- 包含多个决策树的分类器
- 输出由输出类别的众数决定
随机 - 随机有放回抽样 - bootstrap
- 训练集随机
- 特征随机

3.4.3 总结

优点
- 有极好准确率
- 不需要降维
- 有效运行在大数据集上

3.5 模型选择与调优

3.5.1 交叉验证

让评估模型更加准确可靠

（1）训练集

训练集 + 验证集

（2）测试集

测试集

3.5.2 超参数搜索 - 网格搜索

利用交叉验证来评估，选择最合适K值。

4. 回归与聚类算法

4.1 线性回归

函数关系 --> 特征值和目标值关系

4.1.1原理

（1）通用公式

公式：
$h(w) = w_1x_1 + w_2x_2 + w_3x_3 + ... + b = w^Tx + b$

其中 w，x 可以理解为： $\begin{pmatrix} b\\w_1\\w_2 \end{pmatrix},x =\begin{pmatrix} 1\\x_1\\x_2 \end{pmatrix}$

（2）线性模型

线性模型有两种
- 自变量一次
  
  $y = w_1x_1 + w_2x_2 + w_3x_3 + ... + b$ 中x₁，x₂，x₃…都一次项
- 参数一次（广义线性关系）
  
  $y = w_1x_1 + w_2{x_2}^2 + w_3{x_3}^3 + ... + b$ 中w₁，w₂，w₃…都一次项
线性关系都是线性模型，线性模型不一定是线性关系。