数据挖掘数据分析数据处理 EDA 常用API笔记（持续更新）

最新推荐文章于 2023-04-07 11:21:40 发布

yyhhlancelot

最新推荐文章于 2023-04-07 11:21:40 发布

阅读量660

点赞数 1

分类专栏：机器学习机器学习库文章标签： kaggle eda 数据分析数据处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yyhhlancelot/article/details/84887953

版权

这篇笔记详细记录了数据处理过程中的一些关键API，包括numpy的数组生成和打乱顺序，pandas的DataFrame操作如head(), tail(), describe(), groupby()等，还涉及到数据清洗、分位数计算、时间序列处理等，是进行EDA和数据分析的实用参考资料。" 106665811,9746501,Hive与Flink UDF/UDTF实现详解,"['Hive函数', 'Flink函数', '数据转换', '大数据处理', '用户自定义函数']

摘要由CSDN通过智能技术生成

import numpy as np

import pandas as pd

np.arrage(num)生成一个 0~num-1 的List
np.random.shuffle[list] 将list的内部顺序完全打乱，该方法无返回值，直接调用即可，调用完List就会改变
pd.DataFrame.head()打印df的前五行
pd.DataFrame.tail()打印df的最末尾五行
pd.DataFrame.describe(),将该列数据的count,mean,std,max,min,25%分位数，50%分位数，75%分位数打印
pd.DataFrame.values()返回一个numpy.ndarray,其值为DataFrame中的值（要和dict.values()进行区分，它返回的是一个List）
np.ndarray.tolist()将ndarray转化为List
pd.DataFrame.groupby() 将相同名称的项聚成一类在groupby()后面可以用mean() std() sum()等计算该类的特征

df.groupby('order')["ext price"].sum()

计算出的特征如何与原始数据结合呢使用df.merge('new dataframe name')

df1 = df.merge('new dataframe name')

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。