创建dataframe

最新推荐文章于 2024-08-21 16:45:43 发布

giao客

最新推荐文章于 2024-08-21 16:45:43 发布

阅读量2.2k

点赞数

分类专栏：数据处理文章标签： pandas 数据分析 python

本文链接：https://blog.csdn.net/weixin_46267823/article/details/130463957

版权

数据处理专栏收录该内容

7 篇文章 0 订阅

订阅专栏

1. 引入基础包
2. 创建空的dataframe
- 最朴素的创建方法
- 创建包含列名和index的dataframe
3. 自定义数据创建dataframe
- 使用列表的形式传入数据，列名、值分别传参
- 使用字典的形式同时传入列名和值
4. Excel --> DataFrame
5. CSV --> DataFrame
6. 总结

1. 引入基础包

import pandas  as pd

2. 创建空的dataframe

最朴素的创建方法

df = pd.DataFrame()

在这里插入图片描述

创建包含列名和index的dataframe

df = pd.DataFrame(columns=['A','B','C'],index=[0,1,2])

在这里插入图片描述

3. 自定义数据创建dataframe

使用列表的形式传入数据，列名、值分别传参

df2 = pd.DataFrame(data=['Apple','banna','cherry','dates','eggfruit'])

在这里插入图片描述

使用字典的形式同时传入列名和值

product_dict = {'pencial':['black','red','yellow'],'ruler':['long','short']}
df3 = pd.DataFrame(product_dict)

在这里插入图片描述
这里需要注意的一个点是：每列数据的个数应保持一致。否则会报错：

ValueError: All arrays must be of the same length

4. Excel --> DataFrame

df = pd,read_excel('data.xlsl)

几个重要的参数

read_excel(
  path,
  sheet = NULL,
  range = NULL,
  col_names = TRUE,
  col_types = NULL,
  na = "",
  trim_ws = TRUE,
  skip = 0,
  n_max = Inf,
  guess_max = min(1000, n_max),
  progress = readxl_progress(),
  .name_repair = "unique"
)

sheet 用于指定excel簿中的具体sheet
range：数据读取的范围，形如：“B3:D87”， “Budget!B2:G14”
col_names: 如果是TRUE则读取第一行作为列名，否则用默认值命名或者接受一个字符串向量作为列名
na 用于指定缺失值的字符

5. CSV --> DataFrame

df = pd.read_csv('data.csv')

6. 总结

当数据data.csv文件与脚本代码位于同一个文件时，可以直接使用‘data.csv’指向该文件，若是不在同一个位置，则需要输入文件的全目录地址

总结：对于一般写博客需要，可能需要使用字典或者列表进行dataframe创建，而平时的项目则通常使用read_excel和read_csv进行数据读取。

参考资料

https://blog.csdn.net/qq_18055167/article/details/127861157
https://blog.csdn.net/weixin_39832348/article/details/110384410

giao客

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

创建dataframe

目录

1. 引入基础包

2. 创建空的dataframe

最朴素的创建方法

创建包含列名和index的dataframe

3. 自定义数据创建dataframe

使用列表的形式传入数据，列名、值 分别传参

使用字典的形式同时传入 列名和值

4. Excel --> DataFrame

5. CSV --> DataFrame

6. 总结

使用列表的形式传入数据，列名、值分别传参

使用字典的形式同时传入列名和值