一、pandas的Series库引用示例:
import pandas as pd
data = [22222,44444,22221,6767676,555555]
city = ['GD','JS','SH','SZS','LYG']
GDP = pd.Series(data,index=city)
print(GDP)
二、pandas的DataFrame库引用示例:
import pandas as pd
data= {'rank':[1, 2, 3, 4],'GDP':[80855, 77388, 68024, 47251]}
city= ['GD','JS','SD','ZJ']
df= pd.DataFrame(data, index=city)
print(df)
三、它们都共有3种属性
1..dtypes---->导出类型
2..index---->导出索引
3..values---->导出值
四、pandas中读取CSV文件主要使用:
1.pd.read_csv()函数
将文件路径传入,经过处理后可得到DataFrame格式的数据
行索引:index
列索引:columns
2.CSV的文件路径:
使用Windows系统的同学在自己的电脑上运行代码时,需要注意路径前要加一个r表示字符串不需要转义。
如:
pd.read_csv(r"D:\Users\数据管理.csv")
需要得到:
import pandas as pd
data = pd.read_csv("/Users/数据管理.csv")
print(data)
注意:
1.防止乱码
使用pd.read_csv()方法读取csv格式文件的时候,常常会因为csv文件中带有中文字符造成读取文件错误。
此时,我们可以将参数encoding设置为"utf-8"。
格式:encoding="utf-8"
2.指定index - index_col
对于这种情况,pd.read_csv()函数提供了一个参数:index_col,将 列名作为字符串 传入该参数便可以指定index。
在这里,我们指定 "order_id" 这一列作为index。具体代码如下:
使用pd.read_csv()函数读取路径为 "/Users/数据管理.csv" 的CSV文件
并通过参数index_col来指定"order_id"列为index
将结果赋值给变量data,
data=pd.read_csv("/Users/数据管理.csv",index_col="order_id")
3. 读取指定列 - usecols
针对只需要读取数据中的某一列或多列的情况,pd.read_csv()函数提供了一个参数:usecols,将包含对应的columns的列表传入该参数即可。
比如,只读取 "payment" 和 "items_count" 这两列数据的具体代码如下:
TODO 使用pd.read_csv()函数和usecols参数
读取路径为 "/Users/数据管理.csv" 的CSV文件里:
"payment"和"items_count"这两列中的数据
并将结果赋值给变量data
data=pd.read_csv("/Users/数据管理.csv",usecols=["payment","items_count"])
4. 添加columns
如果CSV文件没有列名,那么使用pd.read_csv()函数就是从第一行直接开始数据的录入了。
这时,就需要给数据添加上columns,让数据变得完整。
TODO 使用pd.read_csv()函数、header参数和names参数
读取路径为 "/Users/order_withoutColumns.csv" 的CSV文件
将数据的columns设置为:"订单号","用户id","支付金额","商品价格","购买数量","支付时间"
将结果赋值给变量data
data = pd.read_csv("/Users/order_withoutColumns.csv",header=None,names=["订单号","用户id","支付金额","商品价格","购买数量","支付时间"])