机器学习数据探索实战--方法论

最新推荐文章于 2024-07-30 00:42:47 发布

一铭

最新推荐文章于 2024-07-30 00:42:47 发布

阅读量1.3k

点赞数

分类专栏：数据挖掘&机器学习文章标签：机器学习数据

本文链接：https://blog.csdn.net/zg_hover/article/details/78760100

版权

4 篇文章 0 订阅

订阅专栏

机器学习数据探索实战过程–方法论

根据实践总结出在实践中数据科学的数据探索的流程。

完成一个机器学习任务，大概分为以下几个阶段，可以从《Data Science Solutions》中查看详细说明：

注意：以上只是一个顺序的工作流，在实际工作中，可能多个工作流之间交叉进行。

做这个数据分析是为了达到一个什么目的？是对数据进行分类，还是对数据做回归分析，还是需要做一个预测模型。

数据科学的整个流程，主要解决以下几个目标：

我们可能希望对我们的样本数据进行归类或分类。我们也可能想了解不同类别对我们的解决方案目标的影响或相关性。

我们可以只基于训练数据集中的可用特征来解决问题。但我们需要探索数据，最好能找到以下问题的答案：

这可以针对给定数据集中的数字和分类特征进行测试。我们也可能想要确定后续目标和工作流阶段的特征之间的相关性。关联某些特征，可能有助于创建，完善或更正特征。

对于建模阶段，我们需要准备数据。根据模型算法的选择，可能需要将所有特征值转换为等效的数值类型的值。例如，将文本分类值转换为数值。

数据准备也可能要求我们估计特征中的任何缺失值。当没有缺失值时，模型算法的效果可能更佳。

我们还需要检查并修正训练数据集中的错误数据（不准确等），并排除含有错误数据的记录。一种方法是检测我们的样本数据或特征中的任何异常值。如果不符合分析要求，或者可能会歪曲结果，我们也可能会完全去除该特征。

我们可能根据现有的特征或一组特征创建新特征，并使新特征遵循相关性，转换性和完整性目标。

如何根据数据的性质和解决目标选择正确的可视化图表。

可以从数据库中获取数据，可以从文件中获取数据，可以从网络的url来获取数据。获取到原始数后，就可以进行后续的操作了。

可以通过python的panda包来对数据进行分析，主要进行一下一些分析：

查看数据集中有哪些特征
这一步主要了解给你的数据集中有哪些维度(属性列)，了解每个维度的业务意义。
查看数据集中哪些特征是类别(枚举值)特征
类别特征一般是离散的枚举数值或文字，比如，性别：男，女；等级：高，中，低。
顺序特征也分几种，一种是与顺序无关的，比如：男，女；一种是与顺序有关的，比如，等级：高中低。
查看哪些特征是数值类型的特征
数值特征是以离散，连续或时间序列为基础的值。
混合类型的特征
数字和字母混合类型。
哪些特征值有错误
这些特征的特征值中包含一些错误，包括拼写错误。
哪些特征可能包含空白值，null或空值
有哪些数据类型的特征
比如：有些数据集有整数，小数，字符串，日期等等。
样本中数值特征的分布情况如何?
这有助于我们尽可能早的洞见数据，实际问题领域的培训数据集的代表性如何？
若是使用panda，可以通过describe()函数可以查看该信息。这一步需要计算数据的：平均值，最大值，最小值，众数，标准差值，方差值等。可以看出，哪些值有重复，哪些值没有重复等等。
哪些是类别特征？