joyful pandas第1章 Pandas基础
Learning Objective
Task01:Pandas基础(1天)
- 理论部分
掌握常见文件格式的读写操作
理解并熟悉 Series 和 DataFrame 的重要属性和重要方法
掌握各类排序(索引排序和值排序、单级排序和多级排序) - 练习部分
《权利的游戏》剧本数据集分析
科比投篮数据集分析
理论部分
import pandas as pd
import numpy as np
查看Pandas版本
pd.__version__
一、文件读取与写入
1. 读取
(a)csv格式
df = pd.read_csv('table.csv')
df.head() #head( )函数的原型中,默认的参数size大小是 5,所以会返回 5 个数据
原表格样式
(b)txt格式
df_txt = pd.read_table('table.txt') #可设置sep分隔符参数
df_txt
原表格样式:
(c)xls或xlsx格式
#需要安装xlrd包
df_excel = pd.read_excel('table.xlsx')
df_excel.head()
原表格样式:
2. 写入
(a)csv格式
df.to_csv('new_table.csv')
#df.to_csv('new_table.csv', index=False) #保存时除去行索引
(b)xls或xlsx格式
#需要安装openpyxl
df.to_excel('new_table2.xlsx', sheet_name='Sheet1')
二、基本数据结构
1.Series
Series相当于数组numpy.array类似, Series 可以理解为一维数组, 其一个索引index对应一个值values; 也可以看做是定长的有序字典.
(a)创建一个Series
对于一个Series,其中最常用的属性为值(values),索引(index),名字(name),类型(dtype)
s = pd.Series(np.random.randn(5),index=['a','b','c','d','e'],name='这是一个Series',dtype='float64')
s
(b) 访问Series属性
s.values
s.name
s.index
s.dtype
(c)取出某一个元素
将在第2章详细讨论索引的应用,这里先大致了解
s['a']
(d)调用方法
s.mean()
Series有相当多的方法可以调用:
#查看series的其他方法
print([attr for attr in dir(s) if not attr.startswith('_')])
2.DataFrame
DataFrame是一种表格型数据结构,它含有一组有序的列,每列可以是不同的值。DataFrame既有行索引,也有列索引,它可以看作是由Series组成的字典,不过这些Series公用一个索引。
DataFrame的创建有多种方式,不过最重要的还是根据dict进行创建,以及读取csv或者txt文件来创建。
作者:文哥的学习日记
链接:https://www.jianshu.com/p/8024ceef4fe2
来源:简书
(a)创建一个DataFrame
df = pd.DataFrame({
'col1':list('abcde'),'col2':range(5,10),'col3':[1.3,2.5,3.6,4.6,5.8]}, index=list('一二三四五'))df
(b)从DataFrame取出一列为Series
df['col1']