groupby后的apply的用法细节——特征工程

最新推荐文章于 2024-06-21 10:21:49 发布

weixin_44848780

最新推荐文章于 2024-06-21 10:21:49 发布

阅读量183

点赞数

文章标签： pandas python 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44848780/article/details/131613856

版权

在进行特征工程时，我们经常对表格类数据进行.groupby操作，但其实我对.groupby后的数据到底是长什么样的了解不全面，下面以几个例子。深入理解一下。

上图中，我们以card_id为分组，来一个个处理特征，现在处理的是city_id特征。

一般我们通过遍历就能知道各组里的具体内容。但现在来看我们对其存储形式的理解还差一点。

具体如下：

按照先前的理解，在进行.apply(list)后，应该返回上图的结果：实际如下：

可以看到，一组里面的city_id被分到一个列表里，是以card_id为单位进行整体的list。

结论：我们知道apply方法作用于df时是按照行，一行行作用的。

所以可以理解为按card_id进行groupby后的单列特征city_id是card_id的一行，是他们的键。而所有的city_id是他们的值,存储为['76','69'.....],所以list他们时不会变成[‘7’，‘6’ ，‘6‘，‘9’......]

weixin_44848780

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
groupby后的apply的用法细节——特征工程

所以可以理解为按card_id进行groupby后的单列特征city_id是card_id的一行，是他们的键。而所有的city_id是他们的值,存储为['76','69'.....],所以list他们时不会变成[‘7’，‘6’ ，‘6‘，‘9’......]在进行特征工程时，我们经常对表格类数据进行.groupby操作，但其实我对.groupby后的数据到底是长什么样的了解不全面，下面以几个例子。上图中，我们以card_id为分组，来一个个处理特征，现在处理的是city_id特征。
复制链接

扫一扫

weixin_44848780 CSDN认证博客专家 CSDN认证企业博客

码龄5年

哈尔滨工业大学

24: 原创

130万+: 周排名

12万+: 总排名

8222: 访问

: 等级

357: 积分

70: 粉丝

110: 获赞

12: 评论

105: 收藏

私信

关注

热门文章

最新评论

申论学习1
CSDN-Ada助手: 恭喜您撰写了第19篇博客《申论学习1》！您的持续创作真是令人钦佩。通过不断分享您的学习经验，不仅能够帮助他人，还能够巩固自己的知识。接下来，我建议您可以继续深入探讨申论学习的相关话题，例如分享一些具体的学习方法和技巧，或者结合实例分析常见的申论题目。期待您的下一篇博客，谦虚且有价值的分享定能为读者带来更多收获！
特征工程2----构造新特征
CSDN-Ada助手: 恭喜博主继续分享关于特征工程的知识，构造新特征对于提升模型性能确实非常重要。希望在未来的博客中，可以分享一些实际案例或者在特征工程中遇到的挑战及解决方案，这样更能帮助读者更好地理解和应用特征工程的技巧。谢谢你的分享，期待更多精彩的内容！
特征工程1--指导思想及互信息
CSDN-Ada助手: 恭喜您写了第17篇博客！标题“特征工程之起点--互信息”非常吸引人。您在特征工程方面的深入研究令人钦佩。我认为下一步，您可以考虑探讨不同特征工程方法之间的比较和优劣，以及如何在实际项目中应用这些方法。希望我的建议能对您的持续创作有所帮助。再次恭喜您的努力！
pandas自带的plot()-df.plot()简单用法
CSDN-Ada助手: 恭喜你开始博客创作！你的标题“pandas自带的plot()-df.plot()简单用法”引起了我的兴趣。我很高兴看到你开始分享关于pandas的知识。对于初学者来说，pandas自带的plot()和df.plot()确实是一个很有用的功能。它们让数据可视化变得更加简单和直观。不过，我希望在你的下一篇博客中能够看到更多的示例和用法。也许你可以介绍一些高级的绘图功能或者展示如何通过调整参数来定制图表。继续努力，期待你的下一篇博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
多变量的联合分布对比——转化为单变量分布对比
CSDN-Ada助手: 非常棒的博文！你对多变量的联合分布进行了很好的比较，并且给出了如何通过单变量分布进行比较的方法。继续创作下去吧！除了你提到的绘制图表来比较联合分布外，还可以考虑使用统计方法来判断两个特征的联合分布是否一致。例如，可以使用假设检验方法，比如卡方检验或者Kolmogorov-Smirnov检验，来判断两个分布是否显著不同。此外，还可以学习一些特征选择的方法，以便更好地理解数据集中的特征之间的关系。希望我的建议对你有所帮助，期待看到你更多的博文！继续加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。