Hands-on data analysis学习笔记task02
1.4知道你的数据叫什么
1.4.1 pandas中Series()和DataFrame()的区别与联系
区别:
series,只是一个一维数据结构,它由index和value组成。
dataframe,是一个二维结构,除了拥有index和value之外,还拥有column。
联系:
dataframe由多个series组成,无论是行还是列,单独拆分出来都是一个series。
pandas中Series()和DataFrame()的区别与联系
import numpy as np
import pandas as pd
print('task1')
sdata = {'Ohio': 3500,'Texas': 71000, 'Oregon': 16000,'Utah': 5000}
example_1 = pd.Series(sdata)
print(example_1)
print('\ntask2')
data ={'state': ['Ohio','Ohio','Ohio','Nevada','Nevada','Nevada'],
'year':[2000,2001,2002,2001,2002,2003],'pop':[1.5,1.7,3.6,2.4,2.9,3.2]}
example_2 = pd.DataFrame(data)
print(example_2)
1.4.2 就简化了
1.4.3 查看数据表格的表头内容
df = pd.read_csv('train_chinese.csv')
print(df.columns) #主要就是在DataFrame后加上.columns
1.4.4 查看‘年龄’这一项的所有项
这里两种方法均可
print(df['年龄'].head(6))
print(df.年龄.head(7))
1.4.5 加载文件"test_1.csv",然后对比"train.csv",看看有哪些多出的列,然后将多出的列删除
print(df.head(2)) #先输出原train.csv文件的前三行
test_1 = pd.read_csv('test_1.csv') #将test_1.csv赋给变量test_1
print(test_1.head(3)) #输出test_1.csv前4 列
通过比较我们发现test_1.csv多了最后一列 a。
del test_1['a'] #删除掉a这一列
print(test_1.head(3))
1.4.6 将[‘PassengerId’,‘Name’,‘Age’,‘Ticket’]这几个列元素隐藏,只观察其他几个列元素
df.drop(['PassengerId','Name','Age','Ticket'],axis=1)
print(df.head())