数据处理系列的介绍和计划

为什么是数据处理系列呢

数据的重要性

在AI上的应用:AI的应用领域有机器视觉、自然语言处理和广告推荐等,可以说都是搭建在定向的数据集上的。首先数据集从类型上分为:大致可以分为图像、音频和文本数据集。

数据处理的用处:都说深度学习的门槛很高,我觉得有一点就是对算力的要求很高,常见的实验数据集本身就比较大,需要用得到网络模型也比较复杂,这就造成非常大的计算量,提高算力是一个非常直接有效的方法,一个很好的数据处理对后续的训练也有很大帮助,可以让数据特征更清晰,降低数据维度,从而降低对算力的使用,缩短训练的时间。

探讨几个常见的数据问题

敢问数据从何处来?当你看到这篇帖子时,你的浏览记录就多了一条数据。所以数据的产生非常广泛,大众的消费记录、新闻博文和视频音乐都是常见的数据,不光这些,生物和物理这些科学领域的研究也会有数据。所以万物皆可数据。

我要这数据有何用?:以史为镜,可以知兴替。我想这大抵也是对数据作用的诠释了,首先是数据记录了我们的生活,这是我们存在的证据。我们还可以研究数据中潜在的变化,解锁新的规律。机器学习的发展兴起,加快了对数据的挖掘,实现了对一些事物的预测和分类,所以数据浑身都是宝。

那么数据怎么用啊?:数据虽然这么有用,但是也不能拿来即用。首先我们需要清楚我们要做什么,然后再选择数据。比如我们想要训练出一个可以识别数字的模型,那么我们最好可以选择一些仅包含数字的图像当作数据集。MNIST数据集就是这么来的。具体的使用我们也需要做一些预处理操作,预处理的方法有很多,包括归一化、缺失值补充和降噪等方法,目的就是让模型更好学习数据集,从而得到我们想要的模型。

说一下后续的分享计划

从加载数据开始:加载数据是数据预处理的基础,因此了解许多加载数据进行分析的方法至关重要。数据集的存储格式也有很多种,所以我们将尝试对多种不同数据的加载。

处理数据的工具:Python本身的数据分析功能不是很强,所以需要安装一些第三方扩展库来辅助增强下数据处理。常用的库有Numpy、Scipy、Matplotlib、Pandas、Scikit-Learn、Keras和Gensim等,后续将对这些库的基础操作进行简单的使用和总结。

数据预处理:数据的预处理在模型训练中也会占用很大一部分时间,毕竟数据集决定模型的上限,这也是我们迈向深度学习的一步。这里会包含很多的方法,这里就不先展开了,小Mi也将边学习边总结。

以上是分享的介绍和计划,希望在小Mi学习的同时给大家带来些有用的东西,如果对内容或者计划有意见和建议,欢迎留言哦!

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值