002.数据分析_Pandas初识

无奋斗不青春

我 的 个 人 主 页:👉👉 失心疯的个人主页 👈👈
入 门 教 程 推 荐 :👉👉 Python零基础入门教程合集 👈👈
虚 拟 环 境 搭 建 :👉👉 Python项目虚拟环境(超详细讲解) 👈👈
PyQt5 系 列 教 程:👉👉 Python GUI(PyQt5)文章合集 👈👈
Oracle数据库教程:👉👉 Oracle数据库文章合集 👈👈
优 质 资 源 下 载 :👉👉 资源下载合集 👈👈
优 质 教 程 推 荐:👉👉 Python爬虫从入门到入狱系列 合集👈👈

分隔线

初识Pandas

  • 官方文档:https://pandas.pydata.org/docs/

概念

  • Pandas 是一个开源的第三方 Python 库,从 Numpy 和 Matplotlib 的基础上构建而来,享有数据分析“三剑客之一”的盛名(NumPy、Matplotlib、Pandas)

  • Pandas 已经成为 Python 数据分析的必备高级工具,它的目标是成为强大、灵活、可以支持任何编程语言的数据分析工具

  • Pandas主要实现了数据分析的五个重要环节:

    1. 加载数据
    2. 整理数据
    3. 操作数据
    4. 构建数据模型
    5. 分析数据
    
  • Pandas主要特点

    1. 提供了一个简单、高效、带有默认标签(也可以自定义标签)的 DataFrame对象(二维表对象)。
    2. 能够快速得从不同格式的文件中加载数据(比如 Excel、CSV 、SQL文件),然后将其转换为可处理的对象;
    3. 能够按数据的行、列标签进行分组,并对分组后的对象执行聚合和转换操作;
    4. 能够很方便地实现数据归一化操作和缺失值处理;
    5. 能够很方便地对DataFrame的数据列进行增加、修改或者删除的操作;
    6. 能够处理不同格式的数据集,比如矩阵数据、异构数据表、时间序列等;
    7. 提供了多种处理数据集的方式,比如构建子集、切片、过滤、分组以及重新排序等
    
  • Pandas应用

    1. Pandas 可以从各种文件格式比如 CSV、JSON、SQL、Microsoft Excel 导入数据。
    2. Pandas 可以对各种数据进行运算操作,比如归并、再成形、选择,还有数据清洗和数据加工特征。
    3. Pandas 广泛应用在学术、金融、统计学等各个数据分析领域
    
  • Pandas核心数据结构

    • Pandas 的主要数据结构是 Series(一维数据)DataFrame(二维数据)
    • Series是一种类似于一维数组的对象,它由一组数据(各种 Numpy 数据类型)以及一组与之相关的数据标签(即索引)组成。
    • DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引)
    数据结构维度说明
    Series1Series是一维数据结构,其维数不可以改变
    该结构能够存储各种数据类型,比如字符数、整数、浮点数、Python 对象等
    Series用nameindex属性来描述数据值
    DataFrame2DataFrame 是一种二维表格型数据的结构
    既有行索引index,也有列索引columns
    在创建该结构时,可以指定相应的索引值

安装

  • Pandas是第三方库,因此需要自行安装
    pip install pandas
    

Pandas对象常用方法

  • 创建Series对象(一维数据)
    pd.Series(data=None index=None, dtype=None, name=None, copy= None, fastpath= lib.no_default)
    
    # 参数详解
    # data      # 数据源
    # index     # 设置标签索引
    # dtype     # 输出系列的数据类型
    # name      # 为Series对象(即列)命名
    # copy      # 指定是否强制创建data源数据的副本,默认为False
    # fastpath  # 是否启用快速路径。默认为 False
    
  • 创建DataFrame对象(二维数据)
    pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
        
    # 参数详解
    # data      # 源数据
    # index     # 设置行索引,用于标识每行数据
    # columns   # 设置列索引,用于标识每列数据
    # dtype     # 指定DataFrame的数据类型
    # copy      # 是否复制数据,
    
  • 判断空值
    # 判断数据中是否有空值(None)
    pd.isnull(s)        # 数据中有空值(None),则返回True
    
    # 判断数据中是否没有空值(None)
    pd.notnull(s)       # 数据中有空值(None),则返回False
    
  • 文件读取
    # 读取 CSV 文件
    pd.read_csv(filename)
    
    # 读取Excel文件
    pd.read_excel(filename)
    
    # 从SQL数据库读取数据
    pd.read_sql(query, connection_object)
    
    # 从JSON字符串中读取数据
    pd.read_json(json_string)
    
    # 从HTML页面中读取数据
    pd.read_html(url)
    
  • 数据合并
    # 将多个数据框按照行或列进行合并
    pd.concat([df1, df2])
    
    # 按照指定列将两个数据框进行合并
    pd.merge(df1, df2, on=column_name)
    
  • 数据解析
    # 将内嵌的数据完整的解析出来
    pd.json_normalize()
    
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

失心疯_2023

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值