pandas task4

一、分组模式及其对象

  1. 分组的一般模式
    要实现分组操作,必须明确三个要素: 分组依据 、 数据来源 、 操作及其返回结果 。同时从充分性的角度来说,如果明确了这三方面,就能确定一个分组操作,从而分组代码的一般模式即:
    df.groupby(分组依据)[数据来源].使用操作
    例如:要实现依据“性别”分组,统计全国人口 “寿命”的“平均值”
    代码为
df.groupby('Gender')['Longevity'].mean()

想要按照性别统计身高中位数,代码如下:

df = pd.read_csv('../data/learn_pandas.csv')
df.groupby('Gender')['Height'].median()

2.分组依据的本质(多个维度分组)
groupby是实习的时候写SQL用的最不好的一个函数,希望这

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
对于pandas来说,它的持久化存储方式有多种,包括HDF5和CSV格式。在HDF5格式中,可以使用pandas的HDFStore类来创建与本地H5文件连接的IO对象,并使用store对象的键索引或get()方法来读取指定数据。例如,可以通过以下方式将数据存储到HDF5文件中: ``` import pandas as pd import numpy as np import time store = pd.HDFStore('store.h5') df = pd.DataFrame(np.random.rand(100000000,5)) # 生成一个1亿行,5列的标准正态分布随机数表 start1 = time.clock() store['df'] = df # 存储数据到HDF5文件 store.close() print(f'HDF5存储用时{time.clock()-start1}秒') ``` 另外,如果想从HDF5文件中读取数据,可以使用以下两种方式: ``` store = pd.HDFStore('demo.h5') df1 = store['df'] # 方式1:通过键索引读取数据 df2 = store.get('df') # 方式2:使用get()方法读取数据 df1 == df2 ``` 除了HDF5格式,还可以使用其他格式来持久化存储数据,比如CSV格式。可以使用pandas的to_csv()方法将数据存储为CSV文件,例如: ``` df.to_csv('df.csv',index=False) # 将数据存储为CSV文件 ``` 总结起来,pandas可以通过HDF5和CSV格式来实现数据的持久化存储。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [利用pandas读写HDF5文件](https://blog.csdn.net/kyle1314608/article/details/112391780)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值