python数据分析与应用

本文详细介绍了Python数据分析库pandas的使用,包括数据读写、数据结构、数据访问、数据修改、统计分析、时间类型数据处理、数据分组、透视表和交叉表创建、数据合并、缺失值和异常值处理、数据标准化和离散化。还讨论了sklearn库在机器学习中的应用,如数据划分、转换器和模型构建与评价。
摘要由CSDN通过智能技术生成

pandas是python中的一个对数据结构化进行数据分析处理的一个库

导包
import pandas as pd

pandas可以读取多种不同数据源的数据

# 读写文本,sep文本分割符号,header设置第几行是列名或None,index_col指定索引列,engine指定解释器,encoding指定编码
pd.read_csv(文件路径,sep='',header=,names=,index_col,engine='python',encoding='utf-8')
# 写出文本,sep分隔符,columns写出的列名,header输出列名,index输出索引列,encoding编码
pd.to_csv(文件路径,sep='',columns=[],header=True,index=True,encoding='utf-8')

# 读取excel文件,sheetname指定工作表字符串或数字,header指定列名行,index_col指定索引
pd.read_excel(文件路径,sheet_name=0,header=,names=,index_col)
# 写出excel文件,sheetname指定工作部名称,columns指定列名,header输出列名,index输出索引,encoding编码
pd.to_excel(文件路径,sheet_name='name',columns=[],header=True,index=True,encoding=)

pandas中有两种数据结构,一个是Series一个是DataFrame
在pandas中DataFrame的每一列数据就是一个Series

Series
pd.Series([1,2,'a'],index=['a','b','c']) # 1 2 a变成一列数据,索引是对应abc
pd.Series({'a':[1,2,3],'b':["4","5","6"]}) # a和b成索引,对应结果是数组a [1,2,3] b ["4","5","6"]

DataFrame
d = [[1,2,3,4],[5,6,7,8],[9,10,11,12]]
pd.DataFrame(d,index=[],columns=[]) # 结果是里面每一个[],index指定索引columns指定列名称

d = {'color':['blue','yellow',skyblue],
     'object':['ball','pen','pencil'],
     'price':[1.2,1.0,1,1]
    }
pd.DataFrame(d) # 通过字典来构建dataframe,key会成为列名,value成为列的值

数据框的常用属性 df为dataframe数据源
df.values # 返回每一列所有元素类型
df.index # 返回索引
df.shape # 返回元组包含几行几列
df.dtypes # 返回所有数据类型
df.size # 返回元素个数
df.co

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值