数据挖掘 数据分析 数据处理 EDA 常用API笔记(持续更新)

这篇笔记详细记录了数据处理过程中的一些关键API,包括numpy的数组生成和打乱顺序,pandas的DataFrame操作如head(), tail(), describe(), groupby()等,还涉及到数据清洗、分位数计算、时间序列处理等,是进行EDA和数据分析的实用参考资料。" 106665811,9746501,Hive与Flink UDF/UDTF实现详解,"['Hive函数', 'Flink函数', '数据转换', '大数据处理', '用户自定义函数']
摘要由CSDN通过智能技术生成
import numpy as np

import pandas as pd
  • np.arrage(num)生成一个 0~num-1 的List
  • np.random.shuffle[list] 将list的内部顺序完全打乱,该方法无返回值,直接调用即可,调用完List就会改变
  • pd.DataFrame.head()打印df的前五行
  • pd.DataFrame.tail()打印df的最末尾五行
  • pd.DataFrame.describe(),将该列数据的count,mean,std,max,min,25%分位数,50%分位数,75%分位数打印
  • pd.DataFrame.values()返回一个numpy.ndarray,其值为DataFrame中的值(要和dict.values()进行区分,它返回的是一个List)
  • np.ndarray.tolist()将ndarray转化为List

     

  • pd.DataFrame.groupby() 将相同名称的项聚成一类 在groupby()后面可以用mean() std() sum()等计算该类的特征
df.groupby('order')["ext price"].sum()

  • 计算出的特征如何与原始数据结合呢 使用df.merge('new dataframe name')
df1 = df.merge('new dataframe name')
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值