CC00038.python——|Hadoop&Python.v02|——|Arithmetic.v02|Pandas数据分析库:Pandas数据结构|

一、pandas数据分析库
### --- pandas数据分析库

~~~     Python在数据处理和准备⽅⾯⼀直做得很好,但在数据分析和建模⽅⾯就差⼀些。
~~~     pandas帮助填补了这⼀空⽩,使您能够在Python中执⾏整个数据分析⼯作流程,
~~~     ⽽不必切换到更特定于领域的语⾔,如R。
~~~     与出⾊的 jupyter⼯具包和其他库相结合,
~~~     Python中⽤于进⾏数据分析的环境在性能、⽣产率和协作能⼒⽅⾯都是卓越的。
~~~     pandas是 Python 的核⼼数据分析⽀持库,提供了快速、灵活、明确的数据结构,旨在简单、
~~~     直观地处理关系型、标记型数据。pandas是Python进⾏数据分析的必备⾼级⼯具。
~~~     pandas的主要数据结构是 Series(⼀维数据)与 DataFrame (⼆维数据),
~~~     这两种数据结构⾜以处理⾦融、统计、社会科学、⼯程等领域⾥的⼤多数案例
~~~     # 处理数据⼀般分为⼏个阶段:
~~~     数据整理与清洗、数据分析与建模、数据可视化与制表,Pandas 是处理数据的理想⼯具。
~~~     pip install pandas -i   https://pypi.tuna.tsinghua.edu.cn/simple
二、pandas库的亮点
### --- pandas库的亮点

~~~     ⼀个快速、⾼效的DataFrame对象,⽤于数据操作和综合索引;
~~~     ⽤于在内存数据结构和不同格式之间读写数据的⼯具:
~~~     CSV和⽂本⽂件、Microsoft Excel、SQL数据库和快速HDF 5格式;
~~~     智能数据对⻬和丢失数据的综合处理:
~~~     在计算中获得基于标签的⾃动对⻬,并轻松地将凌乱的数据操作为有序的形式;
~~~     数据集的灵活调整和旋转;
~~~     基于智能标签的切⽚、花式索引和⼤型数据集的⼦集;
~~~     可以从数据结构中插⼊和删除列,以实现⼤⼩可变;
~~~     通过在强⼤的引擎中聚合或转换数据,允许对数据集进⾏拆分应⽤组合操作;
~~~     数据集的⾼性能合并和连接;
~~~     层次轴索引提供了在低维数据结构中处理⾼维数据的直观⽅法;
~~~     # 时间序列-功能:⽇期范围⽣成和频率转换、移动窗⼝统计、移动窗⼝线性回归、⽇期转换和滞后。
~~~     甚⾄在不丢失数据的情况下创建特定领域的时间偏移和加⼊时间序列;
~~~     对性能进⾏了⾼度优化,⽤Cython或C编写了关键代码路径。
~~~     Python与pandas在⼴泛的学术和商业领域中使⽤,
~~~     包括⾦融,神经科学,经济学,统计学,⼴告,⽹络分析,等等
~~~     学到这⾥,体会⼀会pandas库的亮点,如果对哪些还不熟悉,请对之前知识点再次进⾏复习。
一、数据结构Series
### --- ⽤列表⽣成 Series时,Pandas 默认⾃动⽣成整数索引,也可以指定索引

l = [0,1,7,9,np.NAN,None,1024,512]
# ⽆论是numpy中的NAN还是Python中的None在pandas中都以缺失数据NaN对待
s1 = pd.Series(data = l)                                                # pandas⾃动添加索引
s2 = pd.Series(data = l,index = list('abcdefhi'),dtype='float32')       # 指定⾏索引
# 传⼊字典创建,key⾏索引
s3 = pd.Series(data = {'a':99,'b':137,'c':149},name = 'Python_score')
display(s1,s2,s3)
二、DataFrame
### --- DataFrame是由多种类型的列构成的⼆维标签数据结构,类似于 Excel 、SQL 表,或 Series 对象构成的字典。

import numpy as np
import pandas as pd
# index 作为⾏索引,字典中的key作为列索引,创建了3*3的DataFrame表格⼆维数组
df1 = pd.DataFrame(data = {'Python':[99,107,122],'Math':[111,137,88],'En':
[68,108,43]},                                                           # key作为列索引
index = ['张三','李四','Michael'])                                       # ⾏索引
df2 = pd.DataFrame(data = np.random.randint(0,151,size = (5,3)),
index = ['Danial','Brandon','softpo','Ella','Cindy'],                   # ⾏索引
columns=['Python','Math','En'])                                         # 列索引
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

yanqi_vip

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值