清明时节雨纷纷,路上行人欲断魂
人生苦短,我用python
清明节,
又称踏青节、行清节、三月节、祭祖节等,节期在仲春与暮春之交。
清明节源自早期人类的祖先信仰与春祭礼俗,
是中华民族最隆重盛大的祭祖大节。
清明节兼具自然与人文两大内涵,
既是自然节气点,也是传统节日,
扫墓祭祖与踏青郊游是清明节的两大礼俗主题,
这两大传统礼俗主题在中国自古传承,
至今不辍。
清明节特别专题
本文源码、数据集:点击此处跳转文末名片获取
一、数据概览
该数据集包含了超过100多万名已故人的生活、
工作和死亡的结构化信息。
数据集: AgeDatasetV1.csv
一共1223009条数据。
通过全球122万名人的死亡数据,
我们可以了解大部分人的寿命,
在过去哪些年份的死亡人数较多,
哪些年份出生的人死亡人数较多,
以及不同性别的死亡年龄趋势,
不同职业的男性和女性的死亡人数。
在本案例中我们用到pandas,pyplot,seaborn绘饼状图、
长条图、堆积条形图、折线图,
列名 | 描述 |
---|---|
‘Id’, | 编号 |
‘Name’, | 名字 |
‘Short description’, | 简述 |
Gender’, | 性别 |
Country’, | 国家 |
Occupation’, | 职业 |
‘Birth year’, | 出生年份 |
‘Death year’, | 逝世年份 |
‘Manner of death’, | 死亡方式 |
‘Age of death’ | 去世年龄 |
二、数据预处理
发现有出生年份为负数的,
其实是正常值,
负值表示公元前。
import pandas as pd
df = pd.read_csv('.\data\AgeDatasetV1.csv')
df.info()
df.describe().to_excel(r'.\result\describe.xlsx')
df.isnull().sum().to_excel(r'.\result\nullsum.xlsx')
df[df.duplicated()].to_excel(r'.\result\duplicated.xlsx')
df.rename(columns=lambda x: x.replace(' ', '_').replace('-', '_'), inplace=True)
print(df.columns)
print(df[df['Birth_year'] < 0].to_excel(r'.\result\biryear0.xlsx'))
三、数据可视化
0、导入包和数据
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
df1 = pd.read_csv('./data/AgeDatasetV1.csv')
df1.rename(columns=lambda x: x.replace(' '