第一章：第三节探索性数据分析

最新推荐文章于 2024-03-04 20:41:00 发布

卷卷自然ing

最新推荐文章于 2024-03-04 20:41:00 发布

阅读量335

点赞数

分类专栏：动手学数据分析文章标签：数据分析数据挖掘 python

本文链接：https://blog.csdn.net/xzzxxz1111/article/details/121914077

版权

动手学数据分析专栏收录该内容

5 篇文章 0 订阅

订阅专栏

复习：在前面我们已经学习了Pandas基础，知道利用Pandas读取csv数据的增删查改，今天我们要学习的就是探索性数据分析，主要介绍如何利用Pandas进行排序、算术计算以及计算描述函数describe()的使用。

1 第一章：探索性数据分析

开始之前，导入numpy、pandas包和数据

#加载所需的库
import numpy as np
import pandas as pd

#载入之前保存的train_chinese.csv数据，关于泰坦尼克号的任务，我们就使用这个数据
csv2 = pd.read_csv("train_chinese.csv")
csv2.head(5)

	乘客ID	是否幸存	乘客等级(1/2/3等舱位)	乘客姓名	性别	年龄	堂兄弟/妹个数	船票信息	票价	客舱	登船港口
0	1	0	3	Braund, Mr. Owen Harris	male	22.0	1	A/5 21171	7.2500	NaN	S
1	2	1	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	female	38.0	1	PC 17599	71.2833	C85	C
2	3	1	3	Heikkinen, Miss. Laina	female	26.0	0	STON/O2. 3101282	7.9250	NaN	S
3	4	1	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	female	35.0	1	113803	53.1000	C123	S
4	5	0	3	Allen, Mr. William Henry	male	35.0	0	373450	8.0500	NaN	S

1.6 了解你的数据吗？

教材《Python for Data Analysis》第五章

1.6.1 任务一：利用Pandas对示例数据进行排序，要求升序

# 具体请看《利用Python进行数据分析》第五章 排序和排名 部分

#自己构建一个都为数字的DataFrame数据

'''
我们举了一个例子
pd.DataFrame() ：创建一个DataFrame对象 
np.arange(8).reshape((2, 4)) : 生成一个二维数组（2*4）,第一列：0，1，2，3 第二列：4，5，6，7
index=[2，1] ：DataFrame 对象的索引列
columns=['d', 'a', 'b', 'c'] ：DataFrame 对象的索引行
'''
test_df = pd.DataFrame(np.arange(8).reshape((2, 4)), index=[2, 1], columns=['d', 'a', 'b', 'c'] )
test_df

	d	a	b	c
2	0	1	2	3
1	4	5	6	7

【代码解析】

pd.DataFrame() ：创建一个DataFrame对象

np.arange(8).reshape((2, 4)) : 生成一个二维数组（2*4）,第一列：0，1，2，3 第二列：4，5，6，7

index=['2, 1] ：DataFrame 对象的索引列

columns=[‘d’, ‘a’, ‘b’, ‘c’] ：DataFrame 对象的索引行

【问题】：大多数时候我们都是想根据列的值来排序,所以将你构建的DataFrame中的数据根据某一列，升序排列

#回答代码
test_df.sort_values(by = 'b')

	d	a	b	c
2	0	1	2	3
1	4	5	6	7

【思考】通过书本你能说出Pandas对DataFrame数据的其他排序方式吗？

还可以通过索引进行排序

【总结】下面将不同的排序方式做一个总结

1.让行索引升序排序

#代码
test_df.sort_index()

	d	a	b	c
1	4	5	6	7
2	0	1	2	3

2.让列索引升序排序

#代码
test_df.sort_index(axis = 1)

	a	b	c	d
2	1	2	3	0
1	5	6	7	4

3.让列索引降序排序

#代码
test_df.sort_index(axis = 1 , ascending = False)

	d	c	b	a
2	0	3	2	1
1	4	7	6	5

4.让任选两列数据同时降序排序

#代码
test_df.sort_values(by = ['d','a'] , ascending = False)

	d	a	b	c
1	4	5	6	7
2	0	1	2	3

1.6.2 任务二：对泰坦尼克号数据（trian.csv）按票价和年龄两列进行综合排序（降序排列），从这个数据中你可以分析出什么？

‘’’
在开始我们已经导入了train_chinese.csv数据，而且前面我们也学习了导入数据过程，根据上面学习，我们直接对目标列进行排序即可
head(20) : 读取前20条数据

‘’’

#代码
csv2.sort_values(by = ['票价','年龄'] , ascending = False)[['票价','年龄']].head(5)

	票价	年龄
679	512.3292	36.0
258	512.3292	35.0
737	512.3292	35.0
438	263.0000	64.0
341	263.0000	24.0

csv3 = csv2.sort_values(by = ['票价','年龄'] , ascending = False)
csv3.head(20)

	乘客ID	是否幸存	乘客等级(1/2/3等舱位)	乘客姓名	性别	年龄	堂兄弟/妹个数	父母与小孩个数	船票信息	票价	客舱	登船港口
679	680	1	1	Cardeza, Mr. Thomas Drake Martinez	male	36.0	0	1	PC 17755	512.3292	B51 B53 B55	C
258	259	1	1	Ward, Miss. Anna	female	35.0	0	0	PC 17755	512.3292	NaN	C
737	738	1	1	Lesurer, Mr. Gustave J	male	35.0	0	0	PC 17755	512.3292	B101	C
438	439	0	1	Fortune, Mr. Mark	male	64.0	1	4	19950	263.0000	C23 C25 C27	S
341	342	1	1	Fortune, Miss. Alice Elizabeth	female	24.0	3	2	19950	263.0000	C23 C25 C27	S
88	89	1	1	Fortune, Miss. Mabel Helen	female	23.0	3	2	19950	263.0000	C23 C25 C27	S
27	28	0	1	Fortune, Mr. Charles Alexander	male	19.0	3	2	19950	263.0000	C23 C25 C27	S
742	743	1	1	Ryerson, Miss. Susan Parker "Suzette"	female	21.0	2	2	PC 17608	262.3750	B57 B59 B63 B66	C
311	312	1	1	Ryerson, Miss. Emily Borie	female	18.0	2	2	PC 17608	262.3750	B57 B59 B63 B66	C
299	300	1	1	Baxter, Mrs. James (Helene DeLaudeniere Chaput)	female	50.0	0	1	PC 17558	247.5208	B58 B60	C
118	119	0	1	Baxter, Mr. Quigg Edmond	male	24.0	0	1	PC 17558	247.5208	B58 B60	C
380	381	1	1	Bidois, Miss. Rosalie	female	42.0	0	0	PC 17757	227.5250	NaN	C
716	717	1	1	Endres, Miss. Caroline Louise	female	38.0	0	0	PC 17757	227.5250	C45	C
700	701	1	1	Astor, Mrs. John Jacob (Madeleine Talmadge Force)	female	18.0	1	0	PC 17757	227.5250	C62 C64	C
557	558	0	1	Robbins, Mr. Victor	male	NaN	0	0	PC 17757	227.5250	NaN	C
527	528	0	1	Farthing, Mr. John	male	NaN	0	0	PC 17483	221.7792	C95	S
377	378	0	1	Widener, Mr. Harry Elkins	male	27.0	0	2	113503	211.5000	C82	C
779	780	1	1	Robert, Mrs. Edward Scott (Elisabeth Walton Mc...	female	43.0	0	1	24160	211.3375	B3	S
730	731	1	1	Allen, Miss. Elisabeth Walton	female	29.0	0	0	24160	211.3375	B5	S
689	690	1	1	Madill, Miss. Georgette Alexandra	female	15.0	0	1	24160	211.3375	B5	S

【思考】排序后，如果我们仅仅关注年龄和票价两列。根据常识我知道发现票价越高的应该客舱越好，所以我们会明显看出，票价前20的乘客中存活的有14人，这是相当高的一个比例，那么我们后面是不是可以进一步分析一下票价和存活之间的关系，年龄和存活之间的关系呢？当你开始发现数据之间的关系了，数据分析就开始了。

当然，这只是我的想法，你还可以有更多想法，欢迎写在你的学习笔记中。

多做几个数据的排序

#代码
csv3 = csv2.sort_values(by = ['年龄' , '性别'] , ascending = False)
csv3.head(20)

	乘客ID	是否幸存	乘客等级(1/2/3等舱位)	乘客姓名	性别	年龄	堂兄弟/妹个数	父母与小孩个数	船票信息	票价	客舱	登船港口
630	631	1	1	Barkworth, Mr. Algernon Henry Wilson	male	80.0	0	0	27042	30.0000	A23	S
851	852	0	3	Svensson, Mr. Johan	male	74.0	0	0	347060	7.7750	NaN	S
96	97	0	1	Goldschmidt, Mr. George B	male	71.0	0	0	PC 17754	34.6542	A5	C
493	494	0	1	Artagaveytia, Mr. Ramon	male	71.0	0	0	PC 17609	49.5042	NaN	C
116	117	0	3	Connors, Mr. Patrick	male	70.5	0	0	370369	7.7500	NaN	Q
672	673	0	2	Mitchell, Mr. Henry Michael	male	70.0	0	0	C.A. 24580	10.5000	NaN	S
745	746	0	1	Crosby, Capt. Edward Gifford	male	70.0	1	1	WE/P 5735	71.0000	B22	S
33	34	0	2	Wheadon, Mr. Edward H	male	66.0	0	0	C.A. 24579	10.5000	NaN	S
54	55	0	1	Ostby, Mr. Engelhart Cornelius	male	65.0	0	1	113509	61.9792	B30	C
280	281	0	3	Duane, Mr. Frank	male	65.0	0	0	336439	7.7500	NaN	Q
456	457	0	1	Millet, Mr. Francis Davis	male	65.0	0	0	13509	26.5500	E38	S
438	439	0	1	Fortune, Mr. Mark	male	64.0	1	4	19950	263.0000	C23 C25 C27	S
545	546	0	1	Nicholson, Mr. Arthur Ernest	male	64.0	0	0	693	26.0000	NaN	S
275	276	1	1	Andrews, Miss. Kornelia Theodosia	female	63.0	1	0	13502	77.9583	D7	S
483	484	1	3	Turkula, Mrs. (Hedwig)	female	63.0	0	0	4134	9.5875	NaN	S
252	253	0	1	Stead, Mr. William Thomas	male	62.0	0	0	113514	26.5500	C87	S
555	556	0	1	Wright, Mr. George	male	62.0	0	0	113807	26.5500	NaN	S
570	571	1	2	Harris, Mr. George	male	62.0	0	0	S.W./PP 752	10.5000	NaN	S
829	830	1	1	Stone, Mrs. George Nelson (Martha Evelyn)	female	62.0	0	0	113572	80.0000	B28	NaN
170	171	0	1	Van der hoef, Mr. Wyckoff	male	61.0	0	0	111240	33.5000	B19	S

#写下你的思考

年龄较大的乘客，堂兄妹和父母小孩个数较少，是否可以认为年龄较大的乘客亲戚较少，大多为孤寡老人，且男性较多。

csv3 = csv2.sort_values(by = ['乘客等级(1/2/3等舱位)' , '年龄'] , ascending = False)
csv3.head(20)

	乘客ID	是否幸存	乘客等级(1/2/3等舱位)	乘客姓名	性别	年龄	堂兄弟/妹个数	父母与小孩个数	船票信息	票价	客舱	登船港口
851	852	0	3	Svensson, Mr. Johan	male	74.0	0	0	347060	7.7750	NaN	S
116	117	0	3	Connors, Mr. Patrick	male	70.5	0	0	370369	7.7500	NaN	Q
280	281	0	3	Duane, Mr. Frank	male	65.0	0	0	336439	7.7500	NaN	Q
483	484	1	3	Turkula, Mrs. (Hedwig)	female	63.0	0	0	4134	9.5875	NaN	S
326	327	0	3	Nysveen, Mr. Johan Hansen	male	61.0	0	0	345364	6.2375	NaN	S
94	95	0	3	Coxon, Mr. Daniel	male	59.0	0	0	364500	7.2500	NaN	S
152	153	0	3	Meo, Mr. Alfonzo	male	55.5	0	0	A.5. 11206	8.0500	NaN	S
222	223	0	3	Green, Mr. George Henry	male	51.0	0	0	21440	8.0500	NaN	S
406	407	0	3	Widegren, Mr. Carl/Charles Peter	male	51.0	0	0	347064	7.7500	NaN	S
631	632	0	3	Lundahl, Mr. Johan Svensson	male	51.0	0	0	347743	7.0542	NaN	S
482	483	0	3	Rouse, Mr. Richard Henry	male	50.0	0	0	A/5 3594	8.0500	NaN	S
597	598	0	3	Johnson, Mr. Alfred	male	49.0	0	0	LINE	0.0000	NaN	S
736	737	0	3	Ford, Mrs. Edward (Margaret Ann Watson)	female	48.0	1	3	W./C. 6608	34.3750	NaN	S
771	772	0	3	Jensen, Mr. Niels Peder	male	48.0	0	0	350047	7.8542	NaN	S
132	133	0	3	Robins, Mrs. Alexander A (Grace Charity Laury)	female	47.0	1	0	A/5. 3337	14.5000	NaN	S
592	593	0	3	Elsbury, Mr. William James	male	47.0	0	0	A/5 3902	7.2500	NaN	S
873	874	0	3	Vander Cruyssen, Mr. Victor	male	47.0	0	0	345765	9.0000	NaN	S
203	204	0	3	Youseff, Mr. Gerious	male	45.5	0	0	2628	7.2250	NaN	C
129	130	0	3	Ekstrom, Mr. Johan	male	45.0	0	0	347061	6.9750	NaN	S
167	168	0	3	Skoog, Mrs. William (Anna Bernhardina Karlsson)	female	45.0	1	4	347088	27.9000	NaN	S

csv3 = csv2.sort_values(by = ['乘客等级(1/2/3等舱位)' , '年龄'] , ascending = True)
csv3.head(20)

	乘客ID	是否幸存	乘客等级(1/2/3等舱位)	乘客姓名	性别	年龄	堂兄弟/妹个数	父母与小孩个数	船票信息	票价	客舱	登船港口
305	306	1	1	Allison, Master. Hudson Trevor	male	0.92	1	2	113781	151.5500	C22 C26	S
297	298	0	1	Allison, Miss. Helen Loraine	female	2.00	1	2	113781	151.5500	C22 C26	S
445	446	1	1	Dodge, Master. Washington	male	4.00	0	2	33638	81.8583	A34	S
802	803	1	1	Carter, Master. William Thornton II	male	11.00	1	2	113760	120.0000	B96 B98	S
435	436	1	1	Carter, Miss. Lucile Polk	female	14.00	1	2	113760	120.0000	B96 B98	S
689	690	1	1	Madill, Miss. Georgette Alexandra	female	15.00	0	1	24160	211.3375	B5	S
329	330	1	1	Hippach, Miss. Jean Gertrude	female	16.00	0	1	111361	57.9792	B18	C
504	505	1	1	Maioni, Miss. Roberta	female	16.00	0	0	110152	86.5000	B79	S
853	854	1	1	Lines, Miss. Mary Conover	female	16.00	0	1	PC 17592	39.4000	D28	S
307	308	1	1	Penasco y Castellana, Mrs. Victor de Satode (M...	female	17.00	1	0	PC 17758	108.9000	C65	C
550	551	1	1	Thayer, Mr. John Borland Jr	male	17.00	0	2	17421	110.8833	C70	C
781	782	1	1	Dick, Mrs. Albert Adrian (Vera Gillespie)	female	17.00	1	0	17474	57.0000	B20	S
311	312	1	1	Ryerson, Miss. Emily Borie	female	18.00	2	2	PC 17608	262.3750	B57 B59 B63 B66	C
505	506	0	1	Penasco y Castellana, Mr. Victor de Satode	male	18.00	1	0	PC 17758	108.9000	C65	C
585	586	1	1	Taussig, Miss. Ruth	female	18.00	0	2	110413	79.6500	E68	S
700	701	1	1	Astor, Mrs. John Jacob (Madeleine Talmadge Force)	female	18.00	1	0	PC 17757	227.5250	C62 C64	C
27	28	0	1	Fortune, Mr. Charles Alexander	male	19.00	3	2	19950	263.0000	C23 C25 C27	S
136	137	1	1	Newsom, Miss. Helen Monypeny	female	19.00	0	2	11752	26.2833	D47	S
291	292	1	1	Bishop, Mrs. Dickinson H (Helen Walton)	female	19.00	1	0	11967	91.0792	B49	C
748	749	0	1	Marvin, Mr. Daniel Warner	male	19.00	1	0	113773	53.1000	D30	S

乘客等级在3等的，生存率不高.乘客等级在1等的，生存率越高。客舱等级越高，生存率越高。

1.6.3 任务三：利用Pandas进行算术计算，计算两个DataFrame数据相加结果

具体请看《利用Python进行数据分析》第五章算术运算与数据对齐部分

#自己构建两个都为数字的DataFrame数据

“”"
我们举了一个例子：
frame1_a = pd.DataFrame(np.arange(9.).reshape(3, 3),
columns=[‘a’, ‘b’, ‘c’],
index=[‘one’, ‘two’, ‘three’])
frame1_b = pd.DataFrame(np.arange(12.).reshape(4, 3),
columns=[‘a’, ‘e’, ‘c’],
index=[‘first’, ‘one’, ‘two’, ‘second’])
frame1_a
“”"

#代码
frame1_a = pd.DataFrame(np.arange(9.).reshape(3, 3),
                     columns=['a', 'b', 'c'],
                     index=['one', 'two', 'three'])
frame1_b = pd.DataFrame(np.arange(12.).reshape(4, 3),
                     columns=['a', 'e', 'c'],
                     index=['first', 'one', 'two', 'second'])

frame1_a

	a	b	c
one	0.0	1.0	2.0
two	3.0	4.0	5.0
three	6.0	7.0	8.0

frame1_b

	a	e	c
first	0.0	1.0	2.0
one	3.0	4.0	5.0
two	6.0	7.0	8.0
second	9.0	10.0	11.0

将frame_a和frame_b进行相加

#代码
frame1_a+frame1_b

	a	b	c	e
first	NaN	NaN	NaN	NaN
one	3.0	NaN	7.0	NaN
second	NaN	NaN	NaN	NaN
three	NaN	NaN	NaN	NaN
two	9.0	NaN	13.0	NaN

【提醒】两个DataFrame相加后，会返回一个新的DataFrame，对应的行和列的值会相加，没有对应的会变成空值NaN。

当然，DataFrame还有很多算术运算，如减法，除法等，有兴趣的同学可以看《利用Python进行数据分析》第五章算术运算与数据对齐部分，多在网络上查找相关学习资料。

1.6.4 任务四：通过泰坦尼克号数据如何计算出在船上最大的家族有多少人？

‘’’
还是用之前导入的chinese_train.csv如果我们想看看在船上，最大的家族有多少人（‘兄弟姐妹个数’+‘父母子女个数’），我们该怎么做呢？
‘’’

#代码
cpd = pd.read_csv("train_chinese.csv")
cpd.head(5)

	乘客ID	是否幸存	乘客等级(1/2/3等舱位)	乘客姓名	性别	年龄	堂兄弟/妹个数	船票信息	票价	客舱	登船港口
0	1	0	3	Braund, Mr. Owen Harris	male	22.0	1	A/5 21171	7.2500	NaN	S
1	2	1	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	female	38.0	1	PC 17599	71.2833	C85	C
2	3	1	3	Heikkinen, Miss. Laina	female	26.0	0	STON/O2. 3101282	7.9250	NaN	S
3	4	1	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	female	35.0	1	113803	53.1000	C123	S
4	5	0	3	Allen, Mr. William Henry	male	35.0	0	373450	8.0500	NaN	S

【提醒】我们只需找出”兄弟姐妹个数“和”父母子女个数“之和最大的数，当然你还可以想出很多方法和思考角度，欢迎你来说出你的看法。

多做几个数据的相加，看看你能分析出什么？

#代码
max(cpd['堂兄弟/妹个数']+cpd['父母与小孩个数'])
#怎么都想不出来，看了原答案原来是这样子。果然最简单的往往最复杂

#写下你的其他分析
#木有任何想法

1.6.5 任务五：学会使用Pandas describe()函数查看数据基本统计信息

#(1) 关键知识点示例做一遍（简单数据）
# 具体请看《利用Python进行数据分析》第五章 汇总和计算描述统计 部分

#自己构建一个有数字有空值的DataFrame数据


"""
我们举了一个例子：
frame2 = pd.DataFrame([[1.4, np.nan], 
                       [7.1, -4.5],
                       [np.nan, np.nan], 
                       [0.75, -1.3]
                      ], index=['a', 'b', 'c', 'd'], columns=['one', 'two'])
frame2

"""

"\n我们举了一个例子：\nframe2 = pd.DataFrame([[1.4, np.nan], \n                       [7.1, -4.5],\n                       [np.nan, np.nan], \n                       [0.75, -1.3]\n                      ], index=['a', 'b', 'c', 'd'], columns=['one', 'two'])\nframe2\n\n"

#代码
frame2 = pd.DataFrame([[1.4, np.nan], 
                       [7.1, -4.5],
                       [np.nan, np.nan], 
                       [0.75, -1.3]
                      ], index=['a', 'b', 'c', 'd'], columns=['one', 'two'])

调用 describe 函数，观察frame2的数据基本信息

#代码
frame2.describe()

	one	two
count	3.000000	2.000000
mean	3.083333	-2.900000
std	3.493685	2.262742
min	0.750000	-4.500000
25%	1.075000	-3.700000
50%	1.400000	-2.900000
75%	4.250000	-2.100000
max	7.100000	-1.300000

1.6.6 任务六：分别看看泰坦尼克号数据集中票价、父母子女这列数据的基本统计数据，你能发现什么？

‘’’
看看泰坦尼克号数据集中票价这列数据的基本统计数据
‘’’

#代码
cpd.describe()[['票价']]

	票价
count	891.000000
mean	32.204208
std	49.693429
min	0.000000
25%	7.910400
50%	14.454200
75%	31.000000
max	512.329200

cpd.describe()[['父母与小孩个数']]

	父母与小孩个数
count	891.000000
mean	0.381594
std	0.806057
min	0.000000
25%	0.000000
50%	0.000000
75%	0.000000
max	6.000000

【思考】从上面数据我们可以看出，试试在下面写出你的看法。然后看看我们给出的答案。

当然，答案只是我的想法，你还可以有更多想法，欢迎写在你的学习笔记中。

多做几个组数据的统计，看看你能分析出什么？

cpd.columns

Index(['乘客ID', '是否幸存', '乘客等级(1/2/3等舱位)', '乘客姓名', '性别', '年龄', '堂兄弟/妹个数',
       '父母与小孩个数', '船票信息', '票价', '客舱', '登船港口'],
      dtype='object')

【思考】有更多想法，欢迎写在你的学习笔记中。

cpd.describe()[['年龄']]

	年龄
count	714.000000
mean	29.699118
std	14.526497
min	0.420000
25%	20.125000
50%	28.000000
75%	38.000000
max	80.000000

cpd.describe()[['是否幸存' , '年龄']]

	是否幸存	年龄
count	891.000000	714.000000
mean	0.383838	29.699118
std	0.486592	14.526497
min	0.000000	0.420000
25%	0.000000	20.125000
50%	0.000000	28.000000
75%	1.000000	38.000000
max	1.000000	80.000000

# 写下你的其他分析
cpd.describe()

	乘客ID	是否幸存	乘客等级(1/2/3等舱位)	年龄	堂兄弟/妹个数	父母与小孩个数	票价
count	891.000000	891.000000	891.000000	714.000000	891.000000	891.000000	891.000000
mean	446.000000	0.383838	2.308642	29.699118	0.523008	0.381594	32.204208
std	257.353842	0.486592	0.836071	14.526497	1.102743	0.806057	49.693429
min	1.000000	0.000000	1.000000	0.420000	0.000000	0.000000	0.000000
25%	223.500000	0.000000	2.000000	20.125000	0.000000	0.000000	7.910400
50%	446.000000	0.000000	3.000000	28.000000	0.000000	0.000000	14.454200
75%	668.500000	1.000000	3.000000	38.000000	1.000000	0.000000	31.000000
max	891.000000	1.000000	3.000000	80.000000	8.000000	6.000000	512.329200

解：泰坦尼克号中，大部分乘客都是处于低等级的3等舱位，平均年龄较低，大部分乘客都很年轻。

【总结】本节中我们通过Pandas的一些内置函数对数据进行了初步统计查看，这个过程最重要的不是大家得掌握这些函数，而是看懂从这些函数出来的数据，构建自己的数据分析思维，这也是第一章最重要的点，希望大家学完第一章能对数据有个基本认识，了解自己在做什么，为什么这么做，后面的章节我们将开始对数据进行清洗，进一步分析。