数据分析数据挖掘(四)

本文回顾了Python数据分析中的常用函数,并通过Scipy库探讨了数据分布的正态性检验。介绍了如何下载和使用Scipy,以及正态分布的假设检验步骤,包括H0和H1假设、统计量计算、P值的意义和两类错误的概念。同时,强调了样本大小、功效和效应值在假设检验中的重要性。
摘要由CSDN通过智能技术生成

请从上一个博客下载我们需要处理的数据。
一、复习常用的函数:

import pandas as pd
import numpy as np
import matplotlib as mt
#载入库
from pandas import Series,DataFrame
#载入模块
data=pd.read_csv(r'C:\Users\13056\Desktop\tips.csv')

print(data[['sex','day','time']].describe())
#获得数据
#         sex  day    time
#count    244  244     244  有多少条
#unique     2    4       2  有几种类型的
#top     Male  Sat  Dinner  出现最多的数据
#freq     157   87     176  出现最多的数据出现了多少次



#这里给大家讲一个函数,可能有些小伙伴这里不明白
print(data.loc[:,['sex']])
        sex
0    Female
1      Male
2      Male
3      Male
4    Female
..      ...
239    Male
240  Female
241    Male
242    Male
243  Female
表示所有的行sex列拿出来。:代表所有的

复习:咱不能只学不复习哈。会忘的。
索引
1.拿某一列,data['sex'],或者按照切片的方法data[0:3]2.按照地图的方法找: data.at[1,'time']拿到第一行time的数据,data.iat[1,1]拿第一行第一列的数据。这个方法只能拿一个数据。
3.按地图拿一块数据:data.loc[:,['sex']]拿所有行sex的数据,data.iloc[0:1,0:3]范围是第1行和123列。

le=DataFrame({
   
        'id':[1,2],
        'mas':['hello','car']
        })
re=DataFrame({
   
        'id':[1,2],
        'mas1':['no','train']
        })

合并的方法:
1.d3=pd.concat([d1,d2])把d1,d2合成一个序列
2.pd.merge(le,re,on='id')通过id合成了一个数据
   id    mas   mas1
0   1  hello     no
1   2    car  train

排序的方法:
1.data.sort_values('tip')根据tip的大小排序
2.data.sort_values(['tip','total_bill'])如果tip相同就按照total_bill排序
3.data.sort_values(['tip','total_bill'],ascending=[True,False])第一个是升序第二个是降序,ascending等于True是升序,等于False是降序。

分组:我们希通过sex当作指标把每组的数据进行相加。
data.groupby('sex'
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值