数据处理系列的介绍和计划

最新推荐文章于 2024-07-08 16:21:27 发布

小乐快乐

最新推荐文章于 2024-07-08 16:21:27 发布

阅读量1.5k

点赞数

文章标签：深度学习数据挖掘人工智能

本文链接：https://blog.csdn.net/weixin_45666880/article/details/122712284

版权

为什么是数据处理系列呢

数据的重要性

在AI上的应用：AI的应用领域有机器视觉、自然语言处理和广告推荐等，可以说都是搭建在定向的数据集上的。首先数据集从类型上分为：大致可以分为图像、音频和文本数据集。

数据处理的用处：都说深度学习的门槛很高，我觉得有一点就是对算力的要求很高，常见的实验数据集本身就比较大，需要用得到网络模型也比较复杂，这就造成非常大的计算量，提高算力是一个非常直接有效的方法，一个很好的数据处理对后续的训练也有很大帮助，可以让数据特征更清晰，降低数据维度，从而降低对算力的使用，缩短训练的时间。

探讨几个常见的数据问题

敢问数据从何处来？：当你看到这篇帖子时，你的浏览记录就多了一条数据。所以数据的产生非常广泛，大众的消费记录、新闻博文和视频音乐都是常见的数据，不光这些，生物和物理这些科学领域的研究也会有数据。所以万物皆可数据。

我要这数据有何用？：以史为镜，可以知兴替。我想这大抵也是对数据作用的诠释了，首先是数据记录了我们的生活，这是我们存在的证据。我们还可以研究数据中潜在的变化，解锁新的规律。机器学习的发展兴起，加快了对数据的挖掘，实现了对一些事物的预测和分类，所以数据浑身都是宝。

那么数据怎么用啊？：数据虽然这么有用，但是也不能拿来即用。首先我们需要清楚我们要做什么，然后再选择数据。比如我们想要训练出一个可以识别数字的模型，那么我们最好可以选择一些仅包含数字的图像当作数据集。MNIST数据集就是这么来的。具体的使用我们也需要做一些预处理操作，预处理的方法有很多，包括归一化、缺失值补充和降噪等方法，目的就是让模型更好学习数据集，从而得到我们想要的模型。

说一下后续的分享计划

从加载数据开始：加载数据是数据预处理的基础，因此了解许多加载数据进行分析的方法至关重要。数据集的存储格式也有很多种，所以我们将尝试对多种不同数据的加载。

处理数据的工具：Python本身的数据分析功能不是很强，所以需要安装一些第三方扩展库来辅助增强下数据处理。常用的库有Numpy、Scipy、Matplotlib、Pandas、Scikit-Learn、Keras和Gensim等，后续将对这些库的基础操作进行简单的使用和总结。

数据预处理：数据的预处理在模型训练中也会占用很大一部分时间，毕竟数据集决定模型的上限，这也是我们迈向深度学习的一步。这里会包含很多的方法，这里就不先展开了，小Mi也将边学习边总结。

以上是分享的介绍和计划，希望在小Mi学习的同时给大家带来些有用的东西，如果对内容或者计划有意见和建议，欢迎留言哦！

小乐快乐

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据处理系列的介绍和计划

为什么是数据处理系列呢数据的重要性在AI上的应用：AI的应用领域有机器视觉、自然语言处理和广告推荐等，可以说都是搭建在定向的数据集上的。首先数据集从类型上分为：大致可以分为图像、音频和文本数据集。数据处理的用处：都说深度学习的门槛很高，我觉得有一点就是对算力的要求很高，常见的实验数据集本身就比较大，需要用得到网络模型也比较复杂，这就造成非常大的计算量，提高算力是一个非常直接有效的方法，一个很好的数据处理对后续的训练也有很大帮助，可以让数据特征更清晰，降低数据维度，从而降低对算力的使用，缩短训练的
复制链接

扫一扫