pandas简单学习

pandas基本数据结构

   1. pandas中主要有两种数据结构,分别是:Series和DataFrame。
   2. Series:一种类似于一维数组的对象,是由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。仅由一组数据也可产生简单的Series对象。注意:Series中的索引值是可以重复的。
   3. DataFrame:一个表格型的数据结构,包含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型等),DataFrame即有行索引也有列索引,可以被看做是由Series组成的字典。

基本数据结构构建

//导入库
import pandas as pd
import numpy as np
s =  pd.Series([1,3,6,np.nan,44,1])
#定义DataFrame方式一——通过字典创建
df1 = pd.DataFrame({'A':1.,
                   'B':pd.Timestamp('20210424'),
                   'C':np.array([3]*4,dtype='int32'),
                   'D':pd.Categorical(["test","train","test","tain"]),
                    'E':pd.Series(1,index = list(range(4)),dtype = 'float32')})
print(df1)
#定义DataFrame方式二
df2 = pd.DataFrame(np.arange(12).reshape((3,4)))  #标签默认为0,1,2...
datas = pd.date_range('20210421',periods = 6)
df3 = pd.DataFrame(np.random.randn(6,4),index = datas,columns = ['a','b','c','d'])  #设置行与列标签
df3['e'] = np.nan   #可直接添加
#查看各种数据
print(df1.index) #行标签
print(df1.columns) #列标签
print(df1.values)  #数据
print(df2.describe()) #查看各种值,比如平均值,方差,最值等

排序

#index表示按标签排序,axis决定对行或者列,ascending决定正序or倒序(False)
df2.sort_index(axis= 1,ascending=False)
#按内容排序
df2.sort_index(by = 'D')

筛选数据

# print(df1.loc[:,['A','B']])  #按标签选择
# print(df3.loc['20210424',['a','b']])

# print(df3.iloc[3,1])  #按位置选择,也可以选择切片
# print(df3.iloc[[1,3,5],1:3])  #逐个筛选
print(df3[df3.a<0]) #逻辑筛选

关于nan数据的处理

print(df3.dropna(axis=1,how='all')) #how可以取‘any’ 表示只要有nan就满足条件
print(df3.fillna(value = 0))        #将nan全填充成0

print(np.any(df3.isnull())==True)     #检查是否有丢失(适用于数据太多的情况)

python可操作数据格式

数据文件格式:
数据文件格式

参考

链接: link.https://blog.csdn.net/weixin_42107718/article/details/98649208?utm_source=app
link.
https://blog.csdn.net/weixin_42107718/article/details/98659921

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
当你开始学习pandas时,以下是一个简单学习路线: 1. 学习Python基础知识:在使用pandas之前,建议先掌握Python的基本语法和数据结构,例如列表、字典和函数等。 2. 安装pandas库:使用pip或conda等工具安装pandas库,并确保安装正确。 3. 学习pandas的数据结构:pandas主要提供了两种数据结构,即Series和DataFrame。了解它们的特点、创建方式和基本操作方法。 4. 数据导入与导出:学习如何从不同的数据源(如CSV、Excel、数据库等)中导入数据到pandas的DataFrame中,并将处理后的数据导出。 5. 数据清洗与预处理:学习如何处理缺失值、重复值、异常值等数据清洗操作,并进行数据类型转换、重命名列名等预处理操作。 6. 数据选择与过滤:学习如何使用pandas提供的方法选择和过滤DataFrame中的数据,包括使用标签、位置、条件等进行选择。 7. 数据排序与排名:学习如何对DataFrame中的数据进行排序和排名操作,以便更好地理解和分析数据。 8. 数据聚合与分组:学习如何使用pandas进行数据聚合和分组操作,包括使用聚合函数、分组键等进行数据分析。 9. 数据合并与连接:学习如何使用pandas进行多个DataFrame的合并和连接操作,以便进行更复杂的数据分析和处理。 10. 数据可视化:学习如何使用pandas结合matplotlib或其他可视化库进行数据可视化,以便更直观地展示和分析数据。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值