![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据处理
文章平均质量分 86
啦啦啦12345678900000000
这个作者很懒,什么都没留下…
展开
-
特征工程之降维
降维线性PCA(不需要标签):可从两个角度进行理解,最大方差和最小平方误差最大方差:在信号处理领域,我们认为信号具有较大方差,噪声具有较小方差,因此我们需要寻找数据中方差较大的方向,即最大化投影方差。推导过程:原始数据为{v1,v2,⋯ ,vn}\{v_1,v_2,\cdots,v_n\}{v1,v2,⋯,vn},经过中心化变为{x1,x2,⋯ ,xn}\{x_1,x_2,\cdo...原创 2020-03-19 12:36:24 · 350 阅读 · 0 评论 -
利用python处理两千万条数据的一些经验(仅供自己记录)
5.3老板交给我一个任务,简单处理一些数据,三个CSV文件,每个都是2.3G大小,以下是要求看着觉得很easy,兴冲冲地去搞了,当时还是用的notepad++写python代码,对于python来说,表里面的要求利用分片,替换等都可以完成,只剩下最后的滤重比较麻烦,想来想去,用了最笨的方法,遍历,还是两重的,时间复杂度瞬间飙到了n平方,代码跑了一晚上,还没跑出结果,于是放弃这个蠢办法,查了查数据清...原创 2018-05-10 16:50:33 · 42525 阅读 · 6 评论