![](https://img-blog.csdnimg.cn/07f8f6760bfd4422aca8a0d4b25d983e.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
pandas
文章平均质量分 77
初识pandas
三月七꧁ ꧂
尚未佩妥剑,转眼便江湖。愿历尽千帆,归来仍少年! 跨考计算机上岸,下一站:月薪3W!
展开
-
pandas---分箱(离散化处理)、绘图、交叉表和透视表
表示 17 个箱子(十六进制字母中 a-q )。bins:箱子的边界指示。x:要分箱的一维数组或者 Series。箱子数量与箱子间隔。原创 2023-06-18 17:31:21 · 2443 阅读 · 0 评论 -
pandas---文件读取与存储(csv、hdf、json、excel、sql)
数据大部分存在于文件当中,所以pandas会支持复杂的IO操作,pandas的API支持众多的文件格式,如CSV、SQL、EXCEL、JSON、 HDF5。原创 2023-06-17 17:57:42 · 3046 阅读 · 0 评论 -
pandas---数学函数、离散化处理、分组聚合
方差:当数据分布比较分散(即数据在平均数附近波动较大)时,各个数据与平均数的差的平方和。如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的。当数据分布比较集中时,各个数据与平均数的差的平方和较小。如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望。相关系数r:相关系数 = X与Y的协方差 / (X的标准差 * Y的标准差);协方差:两组数值中每对变量的偏差乘积的平均值。大,数据的波动越大;r 的绝对值越大,相关程度越高。原创 2023-06-16 17:23:32 · 537 阅读 · 0 评论 -
pandas---删除重复行、映射、异常值检测与过滤、抽样
返回布尔类型的Series对象,每个元素对应一行,如果该行不是第一次出现,则元素为True。映射的含义:创建一个映射关系列表,把values元素和一个特定的标签或者字符串绑定。唯一,去重,DataFrame没有unique,Series调用unique。,map()函数中可以使用lambda函数,适合处理某一单独的列。:既支持 Series,也支持 DataFrame。使用duplicated()函数检测重复的行。可以求得DataFrame对象每一列的标准差。查看每一列的描述性统计量。原创 2023-06-15 18:06:40 · 2653 阅读 · 0 评论 -
pandas---缺失值的处理
inplace = True:会修改原数据,False:不替换修改原数据,生成新的对象。判断数据中是否包含NaN: pd.isnull(df);np.nan是浮点类型,能参与到计算中。all() : 必须全部为True才会是True,类似and。any() : 只要有一个为True就为True,类似or。可以使用np.nan*()函数来计算,此时会过滤掉nan。删除存在缺失值的:dropna(axis='rows')Pandas中None与np.nan都视作np.nan。比如np.nansum(df)原创 2023-06-14 18:26:48 · 2000 阅读 · 0 评论 -
pandas---数据合并(concat、append、merge)
不匹配级联指的是级联的维度的索引不一致。例如纵向级联时列索引不一致,横向级联时行索引不。按照行或列进行合并,axis=0为列索引,axis=1为行索引。内连接: 类似交集, 只显示共同的部分,只连接匹配的项。外连接:类似并集,显示所有数据,补NaN(默认模式)。对应索引没有值,会自动用NaN填充。原创 2023-06-13 18:29:38 · 6777 阅读 · 1 评论 -
pandas---算术运算、逻辑运算、统计运算、自定义运算
在运算中自动对齐索引;如果索引不对应,则补NaN;Series没有广播机制。适用于NumPy的数组运算也适用于Series。原创 2023-06-12 17:55:36 · 1191 阅读 · 0 评论 -
pandas---Series与DataFrame索引、切片;多层索引、索引的堆叠
可以使用中括号取单个索引(此时返回的是元素类型),或者中括号里一个列表取多个索引(此时。返回的仍然是一个Series类型)。使用index中的元素作为索引值。使用.iloc[ ]原创 2023-06-11 18:43:21 · 6201 阅读 · 0 评论 -
pandas---数据结构(Series、DataFrame 和 MultiIndex)创建方式、属性
Series是一个类似于一维数组的数据结构,它能够保存任何类型的数据,比如整数、字符串、浮点。DataFrame是一个类似于二维数组或表格(如excel)的对象,既有行索引,又有列索引。index:索引,必须是唯一的,且与数据的长度相等。如果没有传入索引参数,则默认会自动创建一个从0-N的整数索引。如果没有传入索引参数,则默认会自动创建一个从0-N的整数索引。列索引,表名不同列,纵向索引,叫columns,1轴,axis=1。行索引,表明不同行,横向索引,叫index,0轴,axis=0;原创 2023-06-10 18:24:35 · 1454 阅读 · 0 评论