Hands-on data analysis学习笔记task02

1.4知道你的数据叫什么

1.4.1 pandas中Series()和DataFrame()的区别与联系

区别:
series,只是一个一维数据结构,它由index和value组成。
dataframe,是一个二维结构,除了拥有index和value之外,还拥有column。

联系:
dataframe由多个series组成,无论是行还是列,单独拆分出来都是一个series。

pandas中Series()和DataFrame()的区别与联系

import numpy as np
import pandas as pd

print('task1')
sdata = {'Ohio': 3500,'Texas': 71000, 'Oregon': 16000,'Utah': 5000}
example_1 = pd.Series(sdata)
print(example_1)

Series 结果

print('\ntask2')
data ={'state': ['Ohio','Ohio','Ohio','Nevada','Nevada','Nevada'],
'year':[2000,2001,2002,2001,2002,2003],'pop':[1.5,1.7,3.6,2.4,2.9,3.2]}
example_2 = pd.DataFrame(data)
print(example_2)

DataFrame 结果

1.4.2 就简化了

1.4.3 查看数据表格的表头内容

df = pd.read_csv('train_chinese.csv')
print(df.columns)	#主要就是在DataFrame后加上.columns

表头结果

1.4.4 查看‘年龄’这一项的所有项

这里两种方法均可

print(df['年龄'].head(6))
print(df.年龄.head(7))

年龄项

1.4.5 加载文件"test_1.csv",然后对比"train.csv",看看有哪些多出的列,然后将多出的列删除

print(df.head(2))	#先输出原train.csv文件的前三行
test_1 = pd.read_csv('test_1.csv')	#将test_1.csv赋给变量test_1
print(test_1.head(3))	#输出test_1.csv前4 列

数据比较

通过比较我们发现test_1.csv多了最后一列 a。

del test_1['a']	#删除掉a这一列
print(test_1.head(3))

1.4.6 将[‘PassengerId’,‘Name’,‘Age’,‘Ticket’]这几个列元素隐藏,只观察其他几个列元素

df.drop(['PassengerId','Name','Age','Ticket'],axis=1)
print(df.head())
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值