数据分析[0]_常用数据处理

常用数据处理

这里主要介绍了包括以下几种类型的数据处理:
- 数值型数列均值、方差、分位数的计算
- 噪声数据过滤
- 缺失值补全方法


1. 实现数值型数列均值、方差、分位数的计算

1.1 均值计算
1、传入数据;
2、然后是构造计算均值的函数;
3、步骤为:(1)传入要计算列的参数;(2)设置变量存储该列数据的总和,以及设置变量存储数据的长度;(3)长度调用len()函数;(4)数据总和循环整个长度(也可以设置循环当有值存在时,长度加1,同时累加数据的和);(5)数据总和除以数据长度得到均值(需满足长度不为0);
4、调用函数,得到计算结果:

def LoadData(dataSet):
    data = pd.read_csv(dataSet)
    data.replace(to_replace='NaN', value=0, regex=True, inplace=True)
    return data

def GetMean(dataSet):
    "计算均值"
    sumOfData = 0 #存储数据的总和
    lengthOfData = len(dataSet) #存储数据的长度
    for i in range(len(dataSet)):
        #循环求和
        sumOfData = sumOfData + float(dataSet.loc[i])
    if lengthOfData != 0 :
        #返回均值
        return sumOfData/lengthOfData
    else:
        return '此数据无均值'

1.2 方差计算
1、传入数据;
2、然后是构造计算方差的函数;
3、步骤为:(1)传入要计算的数据列;(2)设置变量存储该列的均值,调用之前构造的均值计算函数;(3)设置变量存储数据列中每个值与均值差值的平方和,通过循环整个数据列的长度,其中平方和计算调用了pow(x,2)函数,也可以使用x**2计算;(4)若数据长度不为0返回方差结果。
4、调用函数,得到计算结果:

def LoadData(dataSet):
    data = pd.read_csv(dataSet)
    data.replace(to_replace='NaN', value=0, regex=True, inplace=True)
    return data

def GetVar(dataSet):
    "计算方差"
    average = GetMean(dataSet) #得到均值
    lengthOfData = len(dataSet)
    variance = 0
    for i in range(len(dataSet)):
        
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值