Hands-on data analysis学习笔记task02

最新推荐文章于 2024-10-08 16:59:10 发布

小赫的小太阳�

最新推荐文章于 2024-10-08 16:59:10 发布

阅读量192

点赞数

分类专栏： data_analysis 文章标签：数据分析 python

本文链接：https://blog.csdn.net/weixin_44301616/article/details/118003093

版权

data_analysis 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Hands-on data analysis学习笔记task02

1.4知道你的数据叫什么

1.4知道你的数据叫什么

1.4.1 pandas中Series()和DataFrame()的区别与联系

区别：
series，只是一个一维数据结构，它由index和value组成。
dataframe，是一个二维结构，除了拥有index和value之外，还拥有column。

联系：
dataframe由多个series组成，无论是行还是列，单独拆分出来都是一个series。

pandas中Series()和DataFrame()的区别与联系

import numpy as np
import pandas as pd

print('task1')
sdata = {'Ohio': 3500,'Texas': 71000, 'Oregon': 16000,'Utah': 5000}
example_1 = pd.Series(sdata)
print(example_1)

Series 结果

print('\ntask2')
data ={'state': ['Ohio','Ohio','Ohio','Nevada','Nevada','Nevada'],
'year':[2000,2001,2002,2001,2002,2003],'pop':[1.5,1.7,3.6,2.4,2.9,3.2]}
example_2 = pd.DataFrame(data)
print(example_2)

DataFrame 结果

1.4.2 就简化了

1.4.3 查看数据表格的表头内容

df = pd.read_csv('train_chinese.csv')
print(df.columns)	#主要就是在DataFrame后加上.columns

表头结果

1.4.4 查看‘年龄’这一项的所有项

这里两种方法均可

print(df['年龄'].head(6))
print(df.年龄.head(7))

年龄项

1.4.5 加载文件"test_1.csv"，然后对比"train.csv"，看看有哪些多出的列，然后将多出的列删除

print(df.head(2))	#先输出原train.csv文件的前三行
test_1 = pd.read_csv('test_1.csv')	#将test_1.csv赋给变量test_1
print(test_1.head(3))	#输出test_1.csv前4 列

数据比较

通过比较我们发现test_1.csv多了最后一列 a。

del test_1['a']	#删除掉a这一列
print(test_1.head(3))

1.4.6 将[‘PassengerId’,‘Name’,‘Age’,‘Ticket’]这几个列元素隐藏，只观察其他几个列元素

df.drop(['PassengerId','Name','Age','Ticket'],axis=1)
print(df.head())

小赫的小太阳�

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录