数据分析与机器学习随记

本文介绍了特征工程中降维的重要性,讲解了主成分分析(PCA)的基本原理和实现步骤,以及如何通过协方差矩阵分析特征相关性。同时,探讨了TF-IDF在文本特征提取中的应用,解释了其计算方法,并讨论了log函数在数据挤压中的作用。
摘要由CSDN通过智能技术生成
  • 文章
  • 特征工程Note降维:分析特征是否可用时,可以看看它的Var(方差),方差很小就说明这个特征不太能用来区分label,所以可以丢弃。
  • 特征工程Note降维:可以通过查看各个变量之间的协方差,以观察是否有相关性很高的特征;python 中 df.corr(); Matlab 中 cov(A)
  • 矩阵 X T ∗ X X^T*X XTX意义和用途
    • (1)首先我们把X的每一列当作一个特征(也就是一个变量,比如体重,年龄), X T X^T XT就是把每一行变成一个特征或变量,然后 X T ∗ X X^T*X XTX其实就是特征和特征的inner product。
    • (2)协方差:在求协方差矩阵的时候,这个公式很有用,首先把 X X X变成 X − m e a n ( X ) X-mean(X) Xmean(X)(这里的mean是获取每一个列的均值,意思就是将每个特征的中心都压到均值为0),然后就能得到 C o v ( A ) = 1 / ( m − 1 ) ∗ X T ∗ X Cov(A) = 1/(m-1)*X^T*X Cov(A)=1/(m1)XTX,其中m是样本数,1/(m-1)是为了求样本的协方差。这样就能知道每个特征之间的变化趋势是什么,特征间变化一致,cov就是正,不一致就是负,值得注意的一点是,即使cov为0,不一定说明它们没关系。
  • TF-IDF: TF (term frequency), IDF(Inverse document frequency); TF就是一个单词出现在一篇文章中的频率,为了确保因每篇文章长度不同导致的偏差,进行标准化,及TF = 单词个数(这篇文章中)/这篇文章总词数; 因为一个语料库有多篇文章,为了判断某个单词是否有意义(比如 ‘a’, ‘and’ 可能意义不大),就需要IDF,IDF = log(语料库文章总数/(包含该词的文章数+1)), 及 包含该词文章数越多,该词可能意义不大; 最后TF-IDF = TF*IDF,TF越大并且如果IDF也越大,该词越有意义。
  • 关于log: 可以用来挤压数据,比如有一支股票,一段时间高涨,一段时间暂跌,但总体股票价格一直再涨,那么如果我的目的是判断它的波动性,那么可以先用log函数挤压数据,然后再判断它的波动。(Idea)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值