数据分析数据挖掘（四）

最新推荐文章于 2022-09-30 10:32:50 发布

南巷旧梦

最新推荐文章于 2022-09-30 10:32:50 发布

阅读量428

点赞数

分类专栏：人工智能文章标签： python 数据分析机器学习

本文链接：https://blog.csdn.net/weixin_45743162/article/details/104682289

版权

本文回顾了Python数据分析中的常用函数，并通过Scipy库探讨了数据分布的正态性检验。介绍了如何下载和使用Scipy，以及正态分布的假设检验步骤，包括H0和H1假设、统计量计算、P值的意义和两类错误的概念。同时，强调了样本大小、功效和效应值在假设检验中的重要性。

摘要由CSDN通过智能技术生成

请从上一个博客下载我们需要处理的数据。
一、复习常用的函数：

import pandas as pd
import numpy as np
import matplotlib as mt
#载入库
from pandas import Series,DataFrame
#载入模块
data=pd.read_csv(r'C:\Users\13056\Desktop\tips.csv')

print(data[['sex','day','time']].describe())
#获得数据
#         sex  day    time
#count    244  244     244  有多少条
#unique     2    4       2  有几种类型的
#top     Male  Sat  Dinner  出现最多的数据
#freq     157   87     176  出现最多的数据出现了多少次



#这里给大家讲一个函数，可能有些小伙伴这里不明白
print(data.loc[:,['sex']])
        sex
0    Female
1      Male
2      Male
3      Male
4    Female
..      ...
239    Male
240  Female
241    Male
242    Male
243  Female
表示所有的行sex列拿出来。:代表所有的

复习：咱不能只学不复习哈。会忘的。
索引
1.拿某一列，data['sex'],或者按照切片的方法data[0:3]。
2.按照地图的方法找： data.at[1,'time']拿到第一行time的数据，data.iat[1,1]拿第一行第一列的数据。这个方法只能拿一个数据。
3.按地图拿一块数据：data.loc[:,['sex']]拿所有行sex的数据，data.iloc[0:1,0:3]范围是第1行和1，2，3列。

le=DataFrame({
   
        'id':[1,2],
        'mas':['hello','car']
        })
re=DataFrame({
   
        'id':[1,2],
        'mas1':['no','train']
        })

合并的方法：
1.d3=pd.concat([d1,d2])把d1,d2合成一个序列
2.pd.merge(le,re,on='id')通过id合成了一个数据
   id    mas   mas1
0   1  hello     no
1   2    car  train

排序的方法：
1.data.sort_values('tip')根据tip的大小排序
2.data.sort_values(['tip','total_bill'])如果tip相同就按照total_bill排序
3.data.sort_values(['tip','total_bill'],ascending=[True,False])第一个是升序第二个是降序，ascending等于True是升序，等于False是降序。

分组：我们希通过sex当作指标把每组的数据进行相加。
data.groupby('sex'

最低0.47元/天解锁文章