2.3 数据变换【斯坦福21秋季:实用机器学习中文版】

数据变换

在获取了原始数据,经历了数据清洗的步骤后,我们又应该怎么做呢?本节课从数值、图片、视频、文本四个角度出发,介绍了数据变化。
出处:https://www.bilibili.com/video/BV1pQ4y167ej
参考:https://www.bilibili.com/read/cv13533854?from=note

一、思维导图
在这里插入图片描述
二、数值变换
处理过程中,要保证数据质量、大小,考虑具体使用什么格式(每个单独的文件or文件夹)读取,实现数据的正常化(Normalization)。
(1)数据放置在一个合理的区间。把一个列里面的数值的最小值与最大值都限定到一个固定区间内,所有的元素只通过线性变化出来,防止数据过大过小。
机器学习对于数据大小很敏感,过大过小的数据模型可能会认为很重要,最终导致结果不准确。
在这里插入图片描述
(2)每一列的特征均值变成0,方差变成1。
在这里插入图片描述
(3)归一化处理,把一列的数据换成在[-1, 1]之间。
在这里插入图片描述
(4)对数值都是大于0,且数值变换比较大可以试一下log。log上的加减等于原始数据的乘除,可以计算将基于百分比。
在这里插入图片描述
三、图片变换
1.问题
存储问题——占用内存过大
2.解决方案
(1)修改图片尺寸
机器学习对低分辨率的图片不在意,可以裁剪图片背景、或者抠图减小尺寸。
(2)压缩图片
图片的质量还是图片的大小需要权衡。图片采样的比较小,且jpeg选用中等质量压缩,可能会导致精度有1%的下降。
四、视频变换
1.问题
(1)存储的大小
(2)下载的速度
(2)处理的质量
2.解决方案
(1)采样关键帧
对于视频的感兴趣的部分,进行切割处理(利用GPU采样),占用内存少一点。
(2)直接转换为关键图片
五、文本变换
1.词根化或者语法化
把一个词变成常见的形式 。比如,am,is,are–>be car,cars,car’s,cars’–>car
2.词元化
机器学习算法中最小的单元。
(1)对于英文词,可以word.split(’ ')
(2)对于词组切割子词, word.split(‘a new gpu!’)–>“a”,“new”,“gp”,"##u","!"
目标是把文本处理为小的单元。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

zz_Lambda

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值