数据科学导论——问题分析与数据处理

这篇博客介绍了数据科学的基础,包括如何使用pandas进行数据过滤以去除非数值类和异常值,以及如何生成展示属性相关性的热力图。通过实例展示了在数据预处理和分析过程中的关键步骤。
摘要由CSDN通过智能技术生成

第1关:数据过滤

任务描述

本关任务:编写一个能过滤非数值类和含异常值的数据类型的小程序。

相关知识:

为了完成本关任务,你需要掌握如何利用 pandas 库过滤数据。

pandas过滤数据
pandas 是一个强大的分析结构化数据的工具集;它的使用基础是 Numpy (提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。

Pandas 中常见的数据结构有两种:

Series:  

构建  Series:ser_obj = pd.Series(range(10));  

由索引和数据组成:索引在左<自动创建的>,数据在右;

获取数据和索引:  ser_obj.index; ser_obj.values;  

预览数据:  ser_obj.head(n);ser_obj.tail(n)
DataFrame:  

获取列数据:  df_obj[col_idx]或df_obj.col_idx;  

增加列数据:  df_obj[new_col_idx] = data;  

删除列:  del df_obj[col_idx];  

按值排序:  sort_values(by = “label_name”)

编程要求

请仔细阅读右侧代码,结合相关知识,在 Begin-End 区域内进行代码补充,读取数据、过滤非数值类和含异常值的数据并输出过滤的数据。

测试说明

平台会对你编写的代码进行测试:
部分测试输入:
在这里插入图片描述

预期输出:

数据可视化是数据科学领域中重要的一环,它通过图表、图形和其他可视化工具将数据呈现出来,以便能够更好地理解和分析数据。 首先,数据可视化可以帮助我们更好地理解数据。通过将数据可视化成图表或图像,我们可以直观地看到数据的分布、趋势和模式。这些可视化结果可以让我们更容易地发现数据中的有意义的信息,并且帮助我们深入理解数据所传达的义。 其次,数据可视化还可以帮助我们发现数据中的异常值。通过对数据进行可视化,我们可以快速地发现与众不同的数据点或异常模式。这些异常值可能是我们的数据收集过程中的错误,或者是数据背后隐藏的重要信息。通过识别和处理这些异常值,我们可以提高数据质量和分析的准确性。 此外,数据可视化也有助于数据的传达和沟通。在现实世界中,不同背景的人对于数据的理解能力和统计分析的能力有所差异。数据可视化可以帮助我们以更直观的方式向其他人传达数据,使得他们更容易理解和接受数据的分析结果。通过合适的图表和图形,我们可以有效地解释数据背后的趋势和关系,并与其他人进行更有意义的讨论和决策。 综上所述,数据可视化在数据科学中起着重要的作用。它不仅帮助我们更好地理解和分析数据,发现异常值,还能够向他人有效传达和沟通数据。因此,在进行数据科学工作时,数据可视化是必不可少的一项技能和工具。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

星晴z

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值