实训笔记20190807--数据分析

最新推荐文章于 2024-04-12 21:19:54 发布

sxau_milong

最新推荐文章于 2024-04-12 21:19:54 发布

阅读量339

点赞数

分类专栏：实训

本文链接：https://blog.csdn.net/weixin_43895902/article/details/98783932

版权

本文详细介绍了Python数据分析过程，包括数据导入（文本、Excel、CSV）、编码处理、数据导出、去重、处理空格、字段抽取与拆分、数据抽样、记录合并、字段匹配、数据标准化、分组以及日期处理等关键步骤，旨在提供全面的数据预处理指南。

摘要由CSDN通过智能技术生成

为什么要进行数据分析

人工智能、大数据等数据的采集需要数据----数据通过python分析而来----进行数据的清洗操作—建立数据模型model1----生成一个目标数据—通过目标数据预测未来—得到结果

数据存在的形成

（1）存在于‘文件’，例如excel word txt csv
（2）存在于‘数据库’，例如mysql sqlserver oracle db2

import numpy as np
import pandas as pd
from pandas import read_table ,read_excel,read_csv,DataFrame,to_datetime

在这里插入图片描述

导入文本文件类型

read_table在分析数据里读取文本数据，可以快速读取大数据、海量数据人工智能的数据集。

pd1=read_table('C:/ZhangTao/python课件/0806/数据处理/4.1/2.txt')
# 通过name属性修改列的名称，sep用，隔开数据
pd2 = read_table('C:/ZhangTao/python课件/0806/数据处理/4.1/2.txt', names=['age', 'name'], sep=',')
pd3 = read_table('C:/ZhangTao/python课件/0806/数据处理/4.1/2.txt', names=['年龄', '姓名'], sep=',')
# table也可以读取csv数据
pd4=read_table('C:/ZhangTao/python课件/0806/数据处理/4.1/1.csv')
# 解决数据编码格式
pd5=read_table('C:/ZhangTao/python课件/0806/数据处理/4.1/3.xls')  #  'utf-8' codec can't decode byte 0xd0 in position 0

导入excel类型

read_excel读取excel类型的数据。传统大数据开发就是在excel里进行数据分析，他可以处理大数据库！
在以上两个方法中可以通过name属性给列起名称方便数据的读取，通过sep分割数据

pd6=read_excel('C:/ZhangTao/python课件/0806/数据处理/4.1/3.xlsx')

导入csv文件类型

from pandas import read_csv
导入csv的文件需要通过 read_csv

#CSv自身可以处理编码问题
pd7=read_csv('C:/ZhangTao/python课件/0806/数据处理/4.1/1.csv',encoding='utf-8')

csv 和 word excel wps、txt等哪个处理数据集更好？
csv

解决数据的编码格式的方法

通过EditsPlus或者UE开发工具进行编码的切换！面对海量数据不可用代码转码，这样会导致服务器、数据等发生异常情况！建议使用第三方工具。
csv自身可以处理编码问题

pd8=read_csv(‘d:/pythondata01/1.csv’,encoding=‘utf-8’)

总结： read_table /excel/csv 等，全部返回值是DataFrame类型

导包的/导模块的区别
#建议用什么module导入什么模块即可！
from pandas import DataFrame
#导入的是pnadas里面的所有module，Python解析器解析速度慢，在工作里面编码规范不要求这样大量写
import pandas as pd

导出数据文件

df.to_csv(‘路径’)
不仅仅可以自动创建数据文件，也可以将手动创建的文件，通过数据存放到文件里面！建议大量使用！安全、数据维护简单！
导出文件时，可以导出csv、excel、xls、xlsx、txt、doc、docx等常用的文档类型。

to_csv(filePath,sep=’,’,index=True,header=True)
在这里插入图片描述

#创建一个；列表数据 ，将列表数据导出文本类型、csv类型 、excel等类型.....
df=pd.DataFrame({
   
     'name':['赵雅芝','许仙','法海','金莲','西门庆'],
     'age':[120,12,34,34,55]
     
     })
print('df的数据是:\n',df)

#导出数据
df.to_csv('d:/pythondata01/xxx.csv')  # csv
df.to_csv('d:/pythondata01/xxx.xls')  # xls
df.to_csv('d:/pythondata01/xxx.txt')  # txt
df.to_csv

最低0.47元/天解锁文章

sxau_milong

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
实训笔记20190807--数据分析

python之数据分析为什么要进行数据分析数据存在的形成导入文本文件类型导入excel类型导入csv文件类型解决数据的编码格式的方法导出数据文件除去重复数据处理空格数据数据字段抽取数据字段拆分数据记录抽取数据随机抽样数据记录合并字段匹配数据标准化数据分组日期转换日期格式化日期抽取为什么要进行数据分析人工智能、大数据等数据的采集需要数据----数据通过python分析而来----进行数据的清洗操...
复制链接

扫一扫