Python实现数据分析(四) Pandas

Pandas

关键词: 数据分析库

官网https://pandas.pydata.org/

介绍(选自-百度百科)

pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。

1、Series and DataFrame(数据结构)
s = pd.Series([i*2 for i in range(1,11)])
    print(type(s))
    dates = pd.date_range("20201101",periods=8)
    df= pd.DataFrame(np.random.randn(8,5),index=dates,columns=(list("ABCDE")))
    print(df)
2、Basic and Select and Set(基本操作)
3、Missing Data Process(缺失 数据处理)
4、Merge and Reshape(数据融合和形状定义)
5、Time Series and Graph and Files(时间序列、图形处理、文件)
#encoding=utf-8
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from pylab import *

def main():
    s = pd.Series([i*2 for i in range(1,11)])
    print(type(s))
    dates = pd.date_range("20201101",periods=8)
    df= pd.DataFrame(np.random.randn(8,5),index=dates,columns=(list("ABCDE")))
    print(df)
#     Basic
    print(df.head(3))# 打印前几行
    print(df.tail(3))# 打印后几行
    print(df.index)
    print(df.values)
    print(df.T)# 转置
    print(df.sort_index(axis=1, ascending=False))# 降序表头
    print(df.sort_values("C"))# C列的值升序
    print(df.describe())
#     Select
    print(df[:2])# 从下标切片
    print(df['20201101':'20201104'])
    print(df.loc[dates[0]])# 取第一行的数据
    print(df.loc['20201101':'20201103',['B','D']])# 取2020-11-01到2020-11-03的B和D列的数据
    print(df.at[dates[0],'C'])# 打印第0行C列的值

    print(df.iloc[1:3,2:4])# 2020-11-02到2020-11-03 C、D列
    print(df.iloc[1,2]) # 1,C
#     根据条件查询
    print(df[df>0])
    df.loc[:,'D']=np.array([4]*len(df))
    print(df)
    k = df[df > 0]
    print(k.fillna(value='lower 0'))# 替换

    # Statistics
    print(df.mean())
    print(df.var())

    # Time  Series
    dates2 = pd.date_range("20201122",periods=10,freq='S')
    print(dates2)

    ts = pd.Series(np.random.randn(100),index=pd.date_range('20201122',periods=100))
    ts = ts.cumsum()
    # print(ts)
    ts.plot()
    plt.savefig('./graph/test2')
    show()

    df3 = pd.read_csv('./data/test.txt')
    print(df3)
    # ImportError: Missing optional dependency 'xlrd'.
    # 需要下载xlrd包,命令:pip3 install xlrd
    # df4 = pd.read_excel('./data/test.xlsx','Sheet1')
    # df4.to_excel('./data/test2.xlsx')


main()

总结:

和Numpy一样,pandas也是用于数值计算,只需要会用就可以了,不必记住全部函数。

【git地址】https://gitee.com/sienhao/data-analysis-python.git

在这里插入图片描述
关注公众号,获取更多资讯!

(别忘记三连!!!)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值