ML中的数据预处理

最新推荐文章于 2023-02-26 23:46:57 发布

yanhe156

最新推荐文章于 2023-02-26 23:46:57 发布

阅读量258

点赞数

分类专栏： Machine Learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yanhe156/article/details/83422433

版权

Machine Learning 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

如何快速读取大量小文件？
做一个比赛时，有上万个很小的CSV文件，想要把他们合并起来，发现依次读取非常慢。能想到的思路是多线程读取。python多线程不熟，我直接写了几个python脚本处理读取不同的数据，然后同时运行，然后把每个脚本合并的结果再进一步合并，得到最终的文件。
如何快速读写训练集?
第一次读入训练集后，通过降低不必要的数据精度来减少空间占用。同时要保存为pickle文件，pickle读写比csv快非常多。
降低数据精度会，保存为csv文件是无效的，文件大小不变。
训练集和数据集某特征差异较大如何处理？
比如某特征在训练集中有两种取值，为0或1，但是在测试集中取值为0, 1, 2，那么可以舍弃掉这个特征。或者用K-S检验来做特征选择。
**对原始数据首先删除静态列和重复列。**静态列指的是常数。
~~原始数据（必须）要做 Normalization!~~ 原始数据是否要Normalization根据模型而定。
概率模型如决策树、朴素贝叶斯不需要归一化，最优化问题如LR，NN一般需要归一化。
在进行数据分析的时候，什么情况下需要对数据进行标准化处理？见Maigo大佬的回答。
神经网络如果不做Normalization 会出现什么后果？今天遇到一种情况，原始数据范围大概是(5000,10000)，神经网络第一层是卷积，激活函数是sigmoid。直接将原始数据作为神经网络的输入，最后发现对不同样本，神经网络的输出竟然都是相同的。。。训练时loss自然也不下降。原因自然是sigmoid函数的输入太大了，输出值接近1，对任何样本这一层的输出直接变成常数了，模型的输出自然也都相同。

Normalization指将数据范围变为[0,1]，有时是[-1,1]，中文翻译成归一化，有的也叫标准化，我觉得归一化比较贴切，标准化一般会想到标准正态分布。深度学习里还有一种batch normalization，这里的normalization指的是将把每层的输入转化为标准正态分布，这样能够加速训练。
较大的CSV如何快速传输？
先压缩再传输，CSV文件一般压缩率比较小。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ML中的数据预处理

原始数据（必须）要做 Normalization！在进行数据分析的时候，什么情况下需要对数据进行标准化处理？见Maigo大佬的回答。如果不做Normalization 会出现什么后果？今天遇到一种情况，原始数据范围大概是(5000,10000)，神经网络第一层是卷积，激活函数是sigmoid。直接将原始数据作为神经网络的输入，最后发现对不同样本，神经网络的输出竟然都是相同的。。。训练时l...
复制链接

扫一扫

专栏目录

yanhe156 CSDN认证博客专家 CSDN认证企业博客

码龄10年

102: 原创

10万+: 周排名

170万+: 总排名

31万+: 访问

: 等级

3871: 积分

58: 粉丝

94: 获赞

46: 评论

317: 收藏

私信

关注

热门文章

分类专栏

最新评论

python 添加注释后报错 unexpected indent
julius_1st: 果然连注释符号都要对齐，太神奇了
keil和arm裸机开发及汇编语言遇到的一些问题
早一杯温白开: 写__EVAL是什么意思呢
pytho lambda 没有参数
键盘即钢琴: 比如tf官网的教程： [code=python] # Each element is a tuple containing two `tf.Tensor` objects. elements = [(1, "foo"), (2, "bar"), (3, "baz")] dataset = tf.data.Dataset.from_generator( lambda: elements, (tf.int32, tf.string)) # `map_func` takes two arguments of type `tf.Tensor`. This function # projects out just the first component. result = dataset.map(lambda x_int, y_str: x_int) list(result.as_numpy_iterator()) [/code]
pytho lambda 没有参数
键盘即钢琴: lambda 冒号左边没有参数，也就是没有输入参数的函数，里面的运算需要用到外部变量（全局变量）。
anaconda 更换国内镜像源后下载出错
LJZxiaolongbao: 清华的连不上，不知道为啥，换了这个好使了

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。