python之数据分析
为什么要进行数据分析
人工智能、大数据等数据的采集需要数据----数据通过python分析而来----进行数据的清洗操作—建立数据模型model1----生成一个目标数据—通过目标数据预测未来—得到结果
数据存在的形成
(1)存在于‘文件’,例如excel word txt csv
(2)存在于‘数据库’,例如mysql sqlserver oracle db2
import numpy as np
import pandas as pd
from pandas import read_table ,read_excel,read_csv,DataFrame,to_datetime
导入文本文件类型
- read_table在分析数据里读取文本数据,可以快速读取大数据、海量数据人工智能的数据集。
pd1=read_table('C:/ZhangTao/python课件/0806/数据处理/4.1/2.txt')
# 通过name属性修改列的名称,sep用,隔开数据
pd2 = read_table('C:/ZhangTao/python课件/0806/数据处理/4.1/2.txt', names=['age', 'name'], sep=',')
pd3 = read_table('C:/ZhangTao/python课件/0806/数据处理/4.1/2.txt', names=['年龄', '姓名'], sep=',')
# table也可以读取csv数据
pd4=read_table('C:/ZhangTao/python课件/0806/数据处理/4.1/1.csv')
# 解决数据编码格式
pd5=read_table('C:/ZhangTao/python课件/0806/数据处理/4.1/3.xls') # 'utf-8' codec can't decode byte 0xd0 in position 0
导入excel类型
- read_excel读取excel类型的数据。传统大数据开发就是在excel里进行数据分析,他可以处理大数据库!
- 在以上两个方法中可以通过name属性给列起名称方便数据的读取,通过sep分割数据
pd6=read_excel('C:/ZhangTao/python课件/0806/数据处理/4.1/3.xlsx')
导入csv文件类型
- from pandas import read_csv
导入csv的文件需要通过 read_csv
#CSv自身可以处理编码问题
pd7=read_csv('C:/ZhangTao/python课件/0806/数据处理/4.1/1.csv',encoding='utf-8')
csv 和 word excel wps、txt等哪个处理数据集更好?
csv
解决数据的编码格式的方法
- 通过EditsPlus或者UE开发工具进行编码的切换!面对海量数据不可用代码转码,这样会导致服务器、数据等发生异常情况!建议使用第三方工具。
- csv自身可以处理编码问题
pd8=read_csv(‘d:/pythondata01/1.csv’,encoding=‘utf-8’)
总结: read_table /excel/csv 等,全部返回值是DataFrame类型
导包的/导模块的区别
#建议用什么module导入什么模块即可!
from pandas import DataFrame
#导入的是pnadas里面的所有module,Python解析器解析速度慢,在工作里面编码规范不要求这样大量写
import pandas as pd
导出数据文件
- df.to_csv(‘路径’)
- 不仅仅可以自动创建数据文件,也可以将手动创建的文件,通过数据存放到文件里面!建议大量使用!安全、数据维护简单!
- 导出文件时,可以导出csv、excel、xls、xlsx、txt、doc、docx等常用的文档类型。
to_csv(filePath,sep=’,’,index=True,header=True)
#创建一个;列表数据 ,将列表数据导出文本类型、csv类型 、excel等类型.....
df=pd.DataFrame({
'name':['赵雅芝','许仙','法海','金莲','西门庆'],
'age':[120,12,34,34,55]
})
print('df的数据是:\n',df)
#导出数据
df.to_csv('d:/pythondata01/xxx.csv') # csv
df.to_csv('d:/pythondata01/xxx.xls') # xls
df.to_csv('d:/pythondata01/xxx.txt') # txt
df.to_csv