实训笔记20190807--数据分析

本文详细介绍了Python数据分析过程,包括数据导入(文本、Excel、CSV)、编码处理、数据导出、去重、处理空格、字段抽取与拆分、数据抽样、记录合并、字段匹配、数据标准化、分组以及日期处理等关键步骤,旨在提供全面的数据预处理指南。
摘要由CSDN通过智能技术生成

为什么要进行数据分析

人工智能、大数据等数据的采集需要数据----数据通过python分析而来----进行数据的清洗操作—建立数据模型model1----生成一个目标数据—通过目标数据预测未来—得到结果

数据存在的形成

(1)存在于‘文件’,例如excel word txt csv
(2)存在于‘数据库’,例如mysql sqlserver oracle db2

import numpy as np
import pandas as pd
from pandas import read_table ,read_excel,read_csv,DataFrame,to_datetime

在这里插入图片描述

导入文本文件类型

  • read_table在分析数据里读取文本数据,可以快速读取大数据、海量数据人工智能的数据集。
pd1=read_table('C:/ZhangTao/python课件/0806/数据处理/4.1/2.txt')
# 通过name属性修改列的名称,sep用,隔开数据
pd2 = read_table('C:/ZhangTao/python课件/0806/数据处理/4.1/2.txt', names=['age', 'name'], sep=',')
pd3 = read_table('C:/ZhangTao/python课件/0806/数据处理/4.1/2.txt', names=['年龄', '姓名'], sep=',')
# table也可以读取csv数据
pd4=read_table('C:/ZhangTao/python课件/0806/数据处理/4.1/1.csv')
# 解决数据编码格式
pd5=read_table('C:/ZhangTao/python课件/0806/数据处理/4.1/3.xls')  #  'utf-8' codec can't decode byte 0xd0 in position 0

导入excel类型

  • read_excel读取excel类型的数据。传统大数据开发就是在excel里进行数据分析,他可以处理大数据库!
  • 在以上两个方法中可以通过name属性给列起名称方便数据的读取,通过sep分割数据
pd6=read_excel('C:/ZhangTao/python课件/0806/数据处理/4.1/3.xlsx')

导入csv文件类型

  • from pandas import read_csv
    导入csv的文件需要通过 read_csv
#CSv自身可以处理编码问题
pd7=read_csv('C:/ZhangTao/python课件/0806/数据处理/4.1/1.csv',encoding='utf-8')

csv 和 word excel wps、txt等哪个处理数据集更好?
csv

解决数据的编码格式的方法

  • 通过EditsPlus或者UE开发工具进行编码的切换!面对海量数据不可用代码转码,这样会导致服务器、数据等发生异常情况!建议使用第三方工具。
  • csv自身可以处理编码问题

    pd8=read_csv(‘d:/pythondata01/1.csv’,encoding=‘utf-8’)

总结: read_table /excel/csv 等,全部返回值是DataFrame类型

导包的/导模块的区别
#建议用什么module导入什么模块即可!
from pandas import DataFrame
#导入的是pnadas里面的所有module,Python解析器解析速度慢,在工作里面编码规范不要求这样大量写
import pandas as pd

导出数据文件

  • df.to_csv(‘路径’)
  • 不仅仅可以自动创建数据文件,也可以将手动创建的文件,通过数据存放到文件里面!建议大量使用!安全、数据维护简单!
  • 导出文件时,可以导出csv、excel、xls、xlsx、txt、doc、docx等常用的文档类型。

to_csv(filePath,sep=’,’,index=True,header=True)
在这里插入图片描述

#创建一个;列表数据 ,将列表数据导出文本类型、csv类型 、excel等类型.....
df=pd.DataFrame({
   
     'name':['赵雅芝','许仙','法海','金莲','西门庆'],
     'age':[120,12,34,34,55]
     
     })
print('df的数据是:\n',df)

#导出数据
df.to_csv('d:/pythondata01/xxx.csv')  # csv
df.to_csv('d:/pythondata01/xxx.xls')  # xls
df.to_csv('d:/pythondata01/xxx.txt')  # txt
df.to_csv
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值