pandas
风一样的男子&
熟练Python
展开
-
python pandas超简单 对单列值进行计数 value_counts
import pandas as pd df = pd.DataFrame([[1],[7]],columns=['推广计划']) df = df["推广计划"].value_counts().rename_axis('unique_values').reset_index(name='counts') unique_values counts 0 7 1 1 1 1 ...原创 2020-09-30 14:17:35 · 2319 阅读 · 0 评论 -
numpy中的ndarray与pandas的Series和DataFrame之间的区别
在数据分析中,经常涉及numpy中的ndarray对象与pandas的Series和DataFrame对象之间的转换,让大家产生困惑。本文将简单介绍这三种数据类型,并以股票信息为例,给出相关对象之间转换的具体示例。 ndarray数组对象 NumPy中的ndarray是一个多维数组对象,该对象由两部分组成: 实际的数据; 描述这些数据的元数据。 大部分的数组操作仅仅修改元数据部分,而不改变...转载 2018-08-28 14:49:57 · 6805 阅读 · 0 评论 -
pandas和spark应用心得
pandas处理千万级以下的数据还是很快的,差不得一个G的数据量 如果追求更好的体验,就要用spark,pyspark可以满足需求,类似于sql语句的操作,主要应用的数据类型还是dataframe,处理方法和pandas类似,因为是集群处理,所以速度快,数据存储和读取都存在hadoop实现的hdfs上,主要文件形式,是csv文件...原创 2018-11-01 17:53:18 · 1791 阅读 · 0 评论 -
pandas dataframe apply(fun) 踩过的坑
我这里的dataframe,只有一行数据 当我用dataframe直接调用apply方法并返回一个个series时,会print两次1 然而当我只返回一个列值的时候是不会有这个重复的问题的。 官方的解释: apply在第一列/行上调用func两次,以决定是否可以进行某些优化。 而在pandas==0.18.1以及最新的pandas==0.23.4中进行尝试后发现,这个情况...原创 2019-07-23 20:48:55 · 2027 阅读 · 0 评论