目录
1. 引入基础包
import pandas as pd
2. 创建空的dataframe
最朴素的创建方法
df = pd.DataFrame()
创建包含列名和index的dataframe
df = pd.DataFrame(columns=['A','B','C'],index=[0,1,2])
3. 自定义数据创建dataframe
使用列表的形式传入数据,列名、值 分别传参
df2 = pd.DataFrame(data=['Apple','banna','cherry','dates','eggfruit'])
使用字典的形式同时传入 列名和值
product_dict = {'pencial':['black','red','yellow'],'ruler':['long','short']}
df3 = pd.DataFrame(product_dict)
这里需要注意的一个点是:每列数据的个数应保持一致。否则会报错:
ValueError: All arrays must be of the same length
4. Excel --> DataFrame
df = pd,read_excel('data.xlsl)
几个重要的参数
read_excel(
path,
sheet = NULL,
range = NULL,
col_names = TRUE,
col_types = NULL,
na = "",
trim_ws = TRUE,
skip = 0,
n_max = Inf,
guess_max = min(1000, n_max),
progress = readxl_progress(),
.name_repair = "unique"
)
sheet 用于指定excel簿中的具体sheet
range: 数据读取的范围,形如:“B3:D87”, “Budget!B2:G14”
col_names: 如果是TRUE则读取第一行作为列名,否则用默认值命名或者接受一个字符串向量作为列名
na 用于指定缺失值的字符
5. CSV --> DataFrame
df = pd.read_csv('data.csv')
6. 总结
当数据data.csv文件与脚本代码位于同一个文件时,可以直接使用‘data.csv’指向该文件,若是 不在同一个位置,则需要输入文件的全目录地址
总结:对于一般写博客需要,可能需要使用字典或者列表进行dataframe创建,而平时的项目则通常使用read_excel和read_csv进行数据读取。
参考资料
https://blog.csdn.net/qq_18055167/article/details/127861157
https://blog.csdn.net/weixin_39832348/article/details/110384410