秋招-数据挖掘刷题小结（2022.09.05-2022.09.07）

JJ'll_be_fantastic

于 2022-09-08 08:43:09 发布

阅读量229

点赞数

文章标签：数据挖掘

本文链接：https://blog.csdn.net/weixin_43886357/article/details/126700279

版权

1.precision、recall、F1、ROC

(1)TP、TN、FP、FN

(2)precision精确率：正确预测为正的占全部预测为正的的比例

(3)recll召回率：正确预测为正的占全部实际为正的比例

(4)accuracy精准率：就是所有的预测正确（正类负类）的占总的比重

(5)F1值：越大越好:

(6)ROC

横坐标：1-Specificity，伪正类率(False positive rate，FPR，FPR=FP/(FP+TN))，预测为正但实际为负的样本占所有负例样本的比例；

纵坐标：Sensitivity，真正类率(True positive rate，TPR，TPR=TP/(TP+FN))，预测为正且实际为正的样本占所有正例样本的比例。

在一个二分类模型中，假设采用逻辑回归分类器，其给出针对每个实例为正类的概率，那么通过设定一个阈值如0.6，概率大于等于0.6的为正类，小于0.6的为负类。对应的就可以算出一组(FPR，TPR)，在平面中得到对应坐标点。随着阈值的逐渐减小，越来越多的实例被划分为正类，但是这些正类中同样也掺杂着真正的负实例，即TPR和FPR会同时增大。阈值最大时，对应坐标点为(0,0)，阈值最小时，对应坐标点(1,1)。
2.数据粒度

粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高，粒度级就越小；相反，细化程度越低，粒度级就越大。

3.OLAP\OTAP\OLTP

数据库的操作：一般称为联机事务处理OLTP（On-Line Transaction Processing），针对具体的业务在数据库中的联机操作，具有数据量较少的特点，通常对少量的数据记录进行查询、修改。

数据仓库的操作：一般称为联机分析处理OLAP（On-Line Analytical Processing），针对某些主题（综合数据）的历史数据进行分析，支持管理决策。

数据仓库是支持分析决策，依赖hdfs，支持OLAP

4.特征选择算法

1)完全搜索：广度优先算法分支限界算法定向搜索算法最优优先算法

2)启发式搜索：序列前向选择序列厚向选择双向搜索（类似于向前法向后法向前向后法）、增L去R、序列浮动算法、决策树算法

3)随机算法：随机产生序列选择算法模拟退火算法遗传算法

根据特征选择的形式，可分为三大类：

Filter(过滤法)：按照发散性或相关性对各个特征进行评分，设定阈值或者待选择特征的个数进行筛选
Wrapper(包装法)：根据目标函数（往往是预测效果评分），每次选择若干特征，或者排除若干特征
Embedded(嵌入法)：先使用某些机器学习的模型进行训练，得到各个特征的权值系数，根据系数从大到小选择特征（类似于Filter，只不过系数是通过训练得来的）

5.机器学习中的判别式模型与生成式模型

判别式模型（Discriminative Model）是直接对条件概率p(y|x;θ)建模。常见的判别式模型有线性回归模型、线性判别分析、支持向量机SVM、神经网络等。

生成式模型（Generative Model）则会对x和y的联合分布p(x,y)建模，然后通过贝叶斯公式来求得p(yi|x)，然后选取使得p(yi|x)最大的yi。常见的生成式模型有隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型GMM、狄利克雷分布模型（Latent Dirichlet Allocation，LDA）等。

判别式模型含参，而生成式模型不含参。

6.N-gram

N-gram是一种简单有效的统计语言模型，通常n采用1-3之间的值，它们分别称为unigram、bigram和trigram。

1)unigram:

$P(w_1,w_2,\cdots ,w_m)=\prod_{i=1}^{m}P(w_i)$

2)bigram:前一个词语“wi-1”在单词“wi”之前出现的次数）/（前一个单词“wi-1”在语料库中出现的总次数）

$P(w_1,w_2,\cdots ,w_m)=\prod_{i=1}^{m}P(w_i|w_{i-1})$

3)trigram:

$P(w_1,w_2,\cdots ,w_m)= \prod_{i=1}^{m}P(w_i|w_{i-1}w_{i-2})$

对于bigram而言，

$P(w_i|w_{i-1})=\frac{C(w_iw_{i-1})}{C(w_{i-1})}$

对于ngram来说，

$P(w_i|w_{i-n-1},\cdots ,w_{i-1})=\frac{C(w_{i-n-1},\cdots ,w_i)}{C(w_{i-n-1},\cdots ,w_{i-1})}$

7.时间序列模型总结

1)AR模型：自回归模型，是一种线性模型

2)MA模型：移动平均法模型，其中使用趋势移动平均法建立直线趋势的预测模型

3)ARMA模型：自回归滑动平均模型，拟合较高阶模型

4)GARCH模型：广义回归模型，对误差的方差建模，适用于波动性的分析和预测

8.机器学习常用特征选择方法

DF(Document Frequency) 文档频率
DF:统计特征词出现的文档数量，用来衡量某个特征词的重要性
MI(Mutual Information) 互信息法
互信息法用于衡量特征词与文档类别直接的信息量。
如果某个特征词的频率很低，那么互信息得分就会很大，因此互信息法倾向”低频”的特征词。
相对的词频很高的词，得分就会变低，如果这词携带了很高的信息量，互信息法就会变得低效。
(Information Gain) 信息增益法
通过某个特征词的缺失与存在的两种情况下，语料中前后信息的增加，衡量某个特征词的重要性。
CHI(Chi-square) 卡方检验法
利用了统计学中的”假设检验”的基本思想：首先假设特征词与类别直接是不相关的
如果利用CHI分布计算出的检验值偏离阈值越大，那么更有信心否定原假设，接受原假设的备则假设：特征词与类别有着很高的关联度