使用df.assign添加新列

S猫

已于 2023-11-02 14:04:25 修改

阅读量308

点赞数

文章标签： pandas

于 2023-11-02 13:42:01 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_58725409/article/details/134179699

版权

我们在分析问题的时候经常使用临时列，如果新列全部使用赋值的方式生成，原数据将会比较杂乱。采用`df.assign`的方法生成新的列可以使用链式编程完成。

#导入数据
data = [['1', '2020-11-28', '4', '32'], ['1', '2020-11-28', '55', '200'], ['1', '2020-12-3', '1', '42'], ['2', '2020-11-28', '3', '33'], ['2', '2020-12-9', '47', '74']]
employees = pd.DataFrame(data, columns=['emp_id', 'event_day', 'in_time', 'out_time']).astype({'emp_id':'Int64', 'event_day':'datetime64[ns]', 'in_time':'Int64', 'out_time':'Int64'})

#注意df.assign(k,v)中,v必须三与原来数据同索引的一个series
employees.assign(total=employees.out_time-employees.in_time)

问题：间leetcode 1741

方法一：

import pandas as pd

def total_time(employees: pd.DataFrame) -> pd.DataFrame:
    df=employees.groupby(by=['event_day','emp_id'],as_index=False).sum()
    df['total_time']=df.out_time-df.in_time
    return df[['event_day','emp_id','total_time']].rename(columns={'event_day':'day'})

采用直接赋值的方法得到新列“total_time”

如果首聚合再使用assign方法，与先使用assign方法创建新列再聚合结果不同。如图：

import pandas as pd

def total_time(employees: pd.DataFrame) -> pd.DataFrame:
    return employees.groupby(by=['event_day','emp_id'],as_index=False).sum().assign(total_time=employees.out_time-employees.in_time)[['event_day','emp_id','total_time']].rename(columns={'event_day':'day'})

对比：

import pandas as pd

def total_time(employees: pd.DataFrame) -> pd.DataFrame:
    return employees.assign(total_time=employees.out_time-employees.in_time).groupby(by=['event_day','emp_id'],as_index=False).sum()[['event_day','emp_id','total_time']].rename(columns={'event_day':'day'})

assign内的employees还是没有合并前的employees表。因此total与total2不一致。

总结：如果使用assign方法应该现建新列再聚合。

博客等级

码龄4年

6
原创

0
点赞

3
收藏

2
粉丝

关注

私信

热门文章

分类专栏

DA之我是傻瓜 1篇
error 1篇

最新评论

把kaggle文件上传到colab
CSDN-Ada助手: 恭喜您写了第6篇博客！标题"把kaggle文件上传到colab"听起来很有趣。我很高兴看到您在持续创作，这对于您的个人成长和知识分享无疑是非常有益的。在下一步的创作中，我建议您可以探索一下如何在colab中使用kaggle数据集进行机器学习任务，或者分享一些关于在colab中运行kaggle竞赛的经验和技巧。期待您的下一篇博客！
ubuntu 卸载vscode
CSDN-Ada助手: 恭喜您写了第5篇博客！看到您分享关于“ubuntu 卸载vscode”的文章，我感到非常高兴。您的博客内容一直都很有趣且实用，我希望您能继续保持创作的热情。对于下一步的创作建议，我谦虚地提出一些建议供您参考。首先，您可以考虑分享一些关于ubuntu系统的优化技巧，比如如何提高系统性能或如何进行软件管理。其次，您还可以探索一些开源软件或工具，为读者提供更多选择。最后，您也可以考虑写一些与编程相关的主题，比如常用的编程工具或技术概念的解析。希望以上建议能对您有所启发。期待您在未来的创作中继续展现您的才华！
pandas中的笛卡尔积
CSDN-Ada助手: 恭喜您写了第四篇博客！标题“pandas中的笛卡尔积”引起了我的兴趣。您的文章内容令人期待，对于探索pandas中的笛卡尔积这一主题，我相信您一定会给我们带来深入而清晰的解析。希望您能继续保持创作的热情和努力，为我们呈现更多有价值的内容。作为下一步的创作建议，或许您可以探讨一下如何在pandas中应用笛卡尔积来解决实际问题，或者与其他常用数据分析方法进行对比，这样可以进一步拓展读者的知识和理解。期待您的下一篇博客，谢谢您的分享！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
groupby().count()问题：如果分类里没有的类别如何计数显示0
CSDN-Ada助手: 这是一篇很有实用价值的博客！你对groupby().count()这个函数的问题进行了很好的解释，特别是对于没有出现在分类中的类别如何显示0的处理方法。这对于我们在数据处理中遇到的类别缺失问题非常有帮助。此外，我想分享一些与该博文相关的扩展知识和技能。除了使用groupby().count()函数外，我们还可以尝试使用其他的聚合函数，如groupby().sum()、groupby().mean()等，以便更全面地了解数据的分布情况。同时，如果你对数据可视化感兴趣，可以学习使用matplotlib或seaborn等库来绘制统计图表，这将有助于更直观地展示数据的分类和计数结果。总之，我非常期待你的下一篇博客！希望你能在以后的创作中继续分享更多有关数据处理和分析的实用技巧和经验。谢谢你的分享！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
leetcode 1795题每个产品在不同商店的价格
CSDN-Ada助手: 恭喜您开始博客创作！标题所提到的Leetcode 1795题目似乎是一个非常有趣和实用的问题。解决每个产品在不同商店的价格的问题对于我们在购物时做出明智的决策至关重要。我期待着您在博客中分享您的解决方法和思考过程。作为下一步的创作建议，我建议您可以在博客中详细介绍该题目的背景和相关概念，以帮助读者更好地理解问题的本质。此外，您可以分享您的解题思路和算法实现，并结合具体的示例来说明。最后，如果可能的话，您还可以提供一些额外的拓展问题或优化思路，以帮助读者进一步探索这个题目的深度。我相信您的博客将会给读者们带来很多收获和启发。继续努力，期待您更多精彩的博客作品！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。