作者:幻好
来源:恒生LIGHT云社区
背景简介
在进行量化分析的过程中,总是需要使用大量的数据基础,对数据之间的关联进行挖掘,最终找到我们需要的数据。只通过Python进行数据分析是非常复杂的,有没有更简单的工具帮助我们能够高效快捷的帮助我们分析数据呢?
今天就介绍下Pandas-一个强大的分析结构化数据的工具集。
本文主要正对有一定 Python 语法基础的同学,需要学习 Python 的同学可以在社区寻找教程进行充电(https://developer.hs.net/course/?nav=course)。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-D5DPkDrS-1637826444733)(https://developer.hs.net/storage/attachments/2021/11/21/dHzoWpeBPKWpKswnYhZdIuVtog8BLgBrm3cESsCL_thumb.png “3816”)]
基本概念
Pandas 库是一个免费、开源的第三方 Python 库,是 Python 数据分析必不可少的工具之一,它为 Python 数据分析提供了高性能,且易于使用的数据结构,即 Series 和 DataFrame。
Pandas 使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。
Pandas 库基于 Python NumPy 库开发而来,因此,它可以与 Python 的科学计算库配合使用。
Pandas 自诞生后被应用于众多的领域,比如金融、统计学、社会科学、建筑工程等。
通过以上的介绍,想必大家对于Pandas是干啥的,能有个基本的了解。pandas 相当于 python 中 excel:它使用表(也就是 dataframe),能在数据上做各种变换,但还有其他很多功能。
数据结构
DataFrame
DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引)。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3kbyq12E-1637826444735)(