数据分析与机器学习随记

最新推荐文章于 2024-07-11 10:19:27 发布

RutaTang

最新推荐文章于 2024-07-11 10:19:27 发布

阅读量1.3k

点赞数

分类专栏：机器学习特征工程

本文链接：https://blog.csdn.net/weixin_43896235/article/details/115156894

版权

机器学习同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

特征工程

1 篇文章 0 订阅

订阅专栏

本文介绍了特征工程中降维的重要性，讲解了主成分分析（PCA）的基本原理和实现步骤，以及如何通过协方差矩阵分析特征相关性。同时，探讨了TF-IDF在文本特征提取中的应用，解释了其计算方法，并讨论了log函数在数据挤压中的作用。

摘要由CSDN通过智能技术生成

文章
- 特征降维：
特征工程Note降维：分析特征是否可用时，可以看看它的Var（方差），方差很小就说明这个特征不太能用来区分label，所以可以丢弃。
特征工程Note降维：可以通过查看各个变量之间的协方差，以观察是否有相关性很高的特征；python 中 df.corr(); Matlab 中 cov(A)
矩阵 $X^T*X$ 意义和用途：
- （1）首先我们把X的每一列当作一个特征（也就是一个变量，比如体重，年龄）， $X^T$ 就是把每一行变成一个特征或变量，然后 $X^T*X$ 其实就是特征和特征的inner product。
- （2）协方差：在求协方差矩阵的时候，这个公式很有用，首先把 $X$ 变成 $X - m e a n (X)$ (这里的mean是获取每一个列的均值，意思就是将每个特征的中心都压到均值为0)，然后就能得到 $Cov(A) = 1/(m-1)*X^T*X$ ，其中m是样本数，1/（m-1）是为了求样本的协方差。这样就能知道每个特征之间的变化趋势是什么，特征间变化一致，cov就是正，不一致就是负，值得注意的一点是，即使cov为0，不一定说明它们没关系。
TF-IDF: TF (term frequency), IDF(Inverse document frequency); TF就是一个单词出现在一篇文章中的频率，为了确保因每篇文章长度不同导致的偏差，进行标准化，及TF = 单词个数（这篇文章中）/这篇文章总词数；因为一个语料库有多篇文章，为了判断某个单词是否有意义（比如 ‘a’, ‘and’ 可能意义不大），就需要IDF，IDF = log(语料库文章总数/(包含该词的文章数+1))，及包含该词文章数越多，该词可能意义不大；最后TF-IDF = TF*IDF，TF越大并且如果IDF也越大，该词越有意义。
关于log: 可以用来挤压数据，比如有一支股票，一段时间高涨，一段时间暂跌，但总体股票价格一直再涨，那么如果我的目的是判断它的波动性，那么可以先用log函数挤压数据，然后再判断它的波动。（Idea）