pandas
zhuzuwei
这个作者很懒,什么都没留下…
展开
-
pandas的部分用法
1. 读取和保存csv文档import pandas as pddata = pd.read_csv(filename)data2.to_csv(filename)2.替代DataFrame中的数值,例如将'null'替换成‘NaN’,但是Series没有replace操作data = data.replace('null','NaN')3.在DataFrame中插入一个新的列原创 2017-09-21 19:11:11 · 435 阅读 · 0 评论 -
结合实例总结pandas的部分常用函数
1. df.head(n): 显示数据前n行,不指定n,df.head则会显示所有的行2. df.columns.values获取所有列索引的名称3. df.column_name: 直接获取列column_name的数据4. pd.unique(Series)获取Series中元素的唯一值(即去掉重复的)注意和nunique的区别,nunique只原创 2017-12-14 16:44:40 · 10247 阅读 · 0 评论 -
用pandas之分组groupby:结合JData ”用户购买时间预测“数据分析实例(四)
表4:用户订单表(jdata_user_order)1. 读取数据,并获取数据基本信息2. values_counts()获取下单区域和下单件数信息3. 使用groupby()进行分组,分组完返回一个GroupBy对象,它实际上还没有进行任何计算. 可调用.sum()能统计其他列的和,.count()能统计用户在原始数据中对应的行数,.mean()计算平均数等参数by=['user_id','s...原创 2018-05-26 18:51:03 · 812 阅读 · 0 评论 -
用pandas进行数据分析:结合JData ”用户购买时间预测“数据分析实例(五)
表5:评论分数数据表(jdata_user_comment_score)1. 读取数据,并获取数据基本信息2. 获取评分等级分布,没有-1即没有空评论3. 按o_id进行groupby分组,其中第一个元素是o_id的取值,第二个是对应的分组结果...原创 2018-05-26 19:47:27 · 1812 阅读 · 0 评论 -
pandas之values和value_count()用法:结合JData ”用户购买时间预测“数据分析实例(一)
表1:SKU基本信息表(jdata_sku_basic_info)1. 读取数据,并获取部分特征的最大值,最小值,均值和中位数2. df.info()给出DataFrame数据的基本信息3. df.column.values 以array形式返回指定column的所有取值4. df.column.value_count() 以Series形式返回指定列的不同取值的频率value_count(...原创 2018-05-24 09:10:23 · 89897 阅读 · 2 评论 -
用pandas进行数据分析:结合JData ”用户购买时间预测“数据分析实例(二)
表2:用户基本信息表(jdata_user_basic_info)1. 读取数据,并获取DataFrame数据特征2. df.column.value_count() 以Series形式返回指定列的不同取值的频率原创 2018-05-24 09:50:43 · 1914 阅读 · 0 评论 -
用pandas进行数据分析:结合JData ”用户购买时间预测“数据分析实例(三)
表3:用户行为表(jdata_user_action)1. 读取数据,并获取数据基本信息2. 获取部分特征的频率统计和最大/最小值3. 获取行为次数的统计原创 2018-05-24 11:43:09 · 1421 阅读 · 0 评论 -
pandas 之 to_csv 保存数据出现中文乱码问题及解决办法
1. 使用scrapy框架爬取了一些汽车评价保存在csv文件中,但是直接打开时乱码了。2. 使用pandas读取再使用to_csv()方法重新保存import pandas as pdfile_name = 'G:/myLearning/pythonML201804/spiderLearning/scrapy_learning/car_comment_crawler/\ ...原创 2018-07-02 21:29:03 · 159737 阅读 · 67 评论