Educoder数据科学导论——数据可视化
第1关:数据可视化的内涵
Matplotlib的优点不包含以下那个选项?
A、功能全
B、可定制性好
C、应用广泛
D、界面可交互
2、新兴数据可视化工具不包含以下那个选项?
A、Seaborn
B、numpy
C、Matplotlib
D、Pandas Visualization
答案:D、B
第2关:初识数据
任务描述:
本关任务:分析 Airbnb 房源数据并挖掘规律。
相关知识:
为了完成本关任务,你需要掌握:1. 如何使用 pandas ;2. 如何进行数据分析。
房源数据介绍:
Airbnb 简介:是全世界最大的民宿预订网站,酒店业里的 P2P ,房东发布房源,游客选择并且预订。
数据分析准备:
在具体开展可视化实战之前我们先介绍工程项目并且初始数据,帮助我们更好地进行可视化分析。下面是列出的前期准备:
Python 编程环境;
Jupyter Notebook 或者其他编辑器;
Matplotlib :是画图的基本库;
Seaborn : Seaborn 是一种基于 matplotlib 的图形可视化 python libraty 。它提供了一种高度交互式界面,便于用户能够做出各种有吸引力的统计图表。 Seaborn 其实是在 matplotlib 的基础上进行了更高级的 API 封装,从而使得作图更加容易,在大多数情况下使用 seaborn 就能做出很具有吸引力的图,而使用 matplotlib 就能制作具有更多特色的图。应该把 Seaborn 视为 matplotlib 的补充,而不是替代物。同时它能高度兼容 numpy 与 pandas 数据结构以及 scipy 与 statsmodels 等统计模式。掌握 seaborn 能很大程度帮助我们更高效的观察数据与图表,并且更加深入了解它们。
观察数据:
可视化分析的三个部分,是相承关系:
首先要观察原始数据,看有哪些数据内容,哪些内容是具有研究价值,哪些部分数据质量不高需要过滤;
选定一些研究点;
最后针对不同研究点选择适合的可视化途径。
首先读取数据:
import seaborn as sns#导入模块
import pandas as pd
from matplotlib import pyplot as plt
df = pd.read_csv('data/listings.csv', index_col=0)#读入数据
查看数据表格有哪些项:
for col in df.columns:#循环输出列名
print(col)
编程要求:
请仔细阅读右侧代码,结合相关知识,在 Begin-End 区域内进行代码补充,读入 Airbnb 数据集,并打印前 5 行数据。(文件路径为 Task2/listings.csv )。
测试说明:
平台会对你编写的代码进行测试:
预期输出:
id name host_id host_name neighbourhood_group neighbourhood latitude longitude room_type price minimum_nights number_of_reviews last_review reviews_per_month calculated_host_listings_count availability_365
0 2818 Quiet Garden View Room & Super Fast WiFi 3159 Daniel NaN Oostelijk Havengebied - Indische Buurt 52.36575 4.94142 Private room 59 3 262 2019-06-28 2.09 1 107
1 20168 Studio with private bathroom in the centre 1