数分——数据清洗

最新推荐文章于 2024-10-02 21:20:07 发布

lrshcbxf

最新推荐文章于 2024-10-02 21:20:07 发布

阅读量66

点赞数

文章标签：学习

本文链接：https://blog.csdn.net/weixin_45467375/article/details/133773972

版权

运用python numpy、pandas

步骤

数据读取

df = pd.read_csv(‘.csv’)

数据了解

数据查看
df.info()
查看前几行
df.head(2)
统计性描述
df.describe()

异常值查找

1.根据实际场景找出不符合逻辑的数据，比如商品数据中，优惠<价格，所有优惠>价格的都是异常值
2.根据统计结果，3倍标准差之外的数据判定为异常值
3.重复值查找 df.duplicated() 删除重复值 df.drop_duplicates()

缺失值处理

删除
df.dropna()
查找
df.isnull()
df.某一列.isnull()
填补
df.fillna(填补的值)

清洗方法总结

异常值处理

删除异常记录
作为缺失值
平均法修正、盖帽法修正
不处理：作为业务分析对象

缺失值处理

缺失值删除
均值填充
就近填充
模型填充，如随机森林

文本处理

删除空格
str.split()
文字抓取
df.某列.str.extract(’ (.+) ‘,expand=False) 用正则表达式
\d为数字 .为. （)内为要提取的信息
字符串替换
str.replace(’,‘,’')

时间格式处理

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lrshcbxf

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

100天精通Python（数据分析篇）——第48天：数据分析入门知识

努力让自己发光，对的人才能迎着光而来

07-25

1万+

数据分析入门知识： 1. 为什么要学数据分析？ 2. 数据分析的概念 3. 数据分析涉及哪些能力 4. 数据分析的流程 5. Python做数据分析学什么？

数据分析——数据清洗

qq_40647378的博客

07-15

689

数据分析前的准备工作包括：首先是要明确问题以及分析的方向，其次数据的收集，然后是数据的清洗，最后是数据的分析工作。整个过程最错综复杂的就是数据清洗工作，本次尝试着把之前遇到的数据清洗的一些步骤和方法做一个总结，并且随着以后的工作和学习不断完善。 1、数据预处理当我们导入一份数据后，我们需要对数据的大概有个了解。利用描述性统计可以很方便的对数据有个大致的了解，数据包括数值类型和非数值类型（一般是Object），通过对count max min mean std 等以及唯一值出现次数最多的（top）,频率

参与评论您还未登录，请先登录后发表或查看评论

数分项目《泰坦尼克》——Task2

qq_40530187的博客

09-16

727

数据分析项目的第二步：数据清洗及特征处理

【Python数分实战】数据分析可视化汽车之家2万多条数据

HuJiaPeng123的博客

04-25

1082

🔥🔥🔥Python爬取汽车之家+matplotlib\seaborn绘制多图数据+Pandas数据分析总结

Python踩坑王（第一期）数分大坑：恼人的空格——又名：为什么所有教材总是不厌其烦得强调一定要先做数据清洗

weixin_40624567的博客

04-29

261

昨天朋友用pandas做两表的合并，本来很简单的一个操作，两秒就能搞定，他却愣是做了一上午，踩了一上午坑，后来源文件发给我，我才找出了问题所在，那就是：空格，空格，空格！坑：原始文件是这样两张表：内容分别是： nodos.xlsx city_data.xlsx 概括来讲就是把B表中的纬度和经度取出来，对应到A表的城市，看起来十分简单。掉坑的代码： import pandas as ...

游戏数据分析必知必会

happylls666的博客

11-19

541

游戏数据分析师必备知识

数据分析实战——基于R（学习篇）

qq_44211758的博客

06-03

616

R语言可视化实战——携程/途牛出境游产品本文源自——公众号：废物自救计划荐语：数据分析竞争那么大，我们还投吗？还需要学数据分析吗？数据分析，一个新晋“卷王"职位。一个站在大数据风口上，岗位需求不断增加却仍就不好找工作的岗位。网上流传这这样一句话”2015年，你会Excel和SQL数据库查询你就能找到一份好工作；2017年，你要会做数据可视化，会SPSS，最好还要会一点Python/R;到了现在你还要懂统计，数据清洗，算法等等才能展露头角“。岗位要求不断提高，和你一起竞争的往往也是更专业的人才。数据分析

Python数据预处理、数据清洗、数据分析，全都写了

pdcfighting的博客

01-10

538

今天是腊八节，距离春节已经很近了，祝大家吉利安康！每年春节前一个月，都会是跳槽面试的小旺季，愈是临近年末，互联网大厂的招聘计划就愈是疯狂。仅是字节一家，其官网内就发布了10000+在招新岗...

数据分析汇总

zhangye7805的博客

06-10

2854

1、解决数据孤岛，统一数据出口（避免多指标问题）2、解决查询数据慢的问题，数据量大，可以提前做汇总关系型数据库：MySQL、Oracle、postgreSQL、DB2 …非关系型数据库：Hbase、MongoDB、Redis ……直接找到哪一页去检索，避免全表扫描。提高查询速度，会影响where 和 order by索引是针对于字段的，需要添加到字段上常见索引分类：主键索引、唯一索引、普通索引、复合索引主键索引（了解）： -- 创建主键字段的时候会自动创建主键索引。

Doris实战——工商信息查询平台的湖仓一体建设

爱吃辣条的博客

03-18

1239

Doris实战——工商信息查询平台的湖仓一体建设

如何进行数据分析（以kaggle新手赛为例）－1：

liu_sn的博客

04-04

8558

首先这篇适合给那些跟我一样转行的朋友，转行不易，坚持第一！其次这篇文章也适合给那些准备面试的朋友，了解数据分析的大概流程，粗数据如何处理，这点比能多调用一个学习包更有作用～

会计转行数分，我开启了Tableau探索之路

公众号《溜溜笔记说》

07-20

820

以下来源于公众号《Tableau从入门到精通》前言：这篇文章经过多次修改，终于完成了。白天上班，晚上及周末写写文字，精心准备了4000字长文，希望对你们有用。目录：会计转行数据分析聊聊可视化 Tableau优势学习途径与资料推荐小插曲职业发展兴趣使然公众号构造 1会计转行数据分析我真正意义上的正式接触Tableau是2017年，这年我毕业，非985非211，只是个普通一本生。大学期间学了4年会计，也就是长辈口中越老越吃香的职业。大学期间考了该考的证书，也有花了几.

Go基础学习08-并发安全型类型-通道（chan）深入研究

FLJS_T的博客

09-28

904

在前面学习中了解到对于单值变量，如：int、string；多值变量，如：map存在多协程对资源竞争的并发问题，为了解决并发性通常需要引入sync.Mutex解决。>对于通道的基本声明方式有三种：声明并初始化带缓冲的通道（ch1）；声明并初始化一个不带缓冲的通道（ch2）；仅仅声明一个通道（ch3） >什么是通道：==一个通道相当于一个先进先出（FIFO）的队列。也就是说，通道中的各个元素值都是严格地按照发送的顺序排列的，先被发送通道的元素值一定会先被接收。Select和for循环实现对channel的多次选

10.2学习

最新发布

2401_87363162的博客

10-02

1117

Spring AOP就是基于动态代理的，如果要代理的对象，实现了某个接⼝，那么Spring AOP会使⽤JDKProxy，去创建代理对象，⽽对于没有实现接⼝的对象，就⽆法使⽤ JDK Proxy 去进⾏代理了，这时候Spring AOP会使⽤基于asm框架字节流的Cglib动态代理，这时候Spring AOP会使⽤ Cglib ⽣成⼀个被代理对象的⼦类来作为代理。每个线程中都有一个自己的ThreadLocalMap类对象，可以将线程自己的对象保持到其中，各管各的，线程可以正确的访问到自己的对象。

从0学习React（3）

qq_54432917的博客

09-29

736

在第一篇文章中，我们对index.tsx文件的每一行代码都做了简单的分析。通过第一篇文章的总结，我也大致知道了index.tsx里的很多语法。而第二篇文章，我对index.tsx文件的框架做了一个大致的分析，通过第二篇文章，我对index.tsx有了进一步的认识。按理来讲，第三篇文章我还是解析index.tsx文件，但是我发现，对于前两篇文章，其实我对语法的细节有很多不明白的点。因此这篇文章，我就把React的一些最基础的知识给梳理一下，帮助我更好的理解index.tsx的代码。

6.824 Lab 2C 学习记录

kingsill的博客

09-29

313

最后10s，开始的时候，恢复网络，插入一个数据，等待这个数据被提交，如果超过这10s就报错。2C的test中的unreliable figure8算是给博主的迎头一棒，需要根据raft论文的figure8进行解决，leader。根据前任及博主自己的经验，unreliable figure8的除了上述这一点以外，需要对。博主由于之前的不严谨，给自己留下了很大的改进困难，最后不得不重构代码。进行一定的设计，可以参考课程里老师提出的意见。一下为博主的github仓库，需要的可以参考。有一定的考验，那么就需要对。

Elasticsearch学习笔记(2）

m0_74293254的博客

09-28

1240

创建索引: 使用 PUT 请求来定义索引及其映射。创建文档: 使用 POST 请求将数据添加到索引。读取文档: 使用 GET 请求获取特定文档。更新文档: 使用 POST 加上 _update 操作来修改现有文档。删除文档: 使用 DELETE 请求删除指定文档。删除索引: 使用 DELETE 请求删除整个索引。请求方式：POST请求格式：/{索引库名}/_doc/文档id示例：POST /my_index/_doc/1 { "field": "value" }

【DirectX sdk 学习使用】

qq_41610493的博客

10-01

359

设置包含目录：打开你的项目属性，导航到VC++目录，然后在包含目录中添加DirectX SDK的Include文件夹路径。设置库目录：同样在VC++目录中，在库目录中添加DirectX SDK的Lib文件夹路径。运行安装程序：下载完成后，找到下载的安装程序（通常是一个.exe文件），双击运行。选择安装路径：选择你希望安装DirectX SDK的路径，或者使用默认路径。如果你有任何问题或需要进一步的指导，请随时告诉我。接受许可协议：在安装向导中，阅读并接受许可协议。完成安装：点击“安装”按钮，等待安装完成。

B站数分挖掘python数据分析

01-13

这些视频教程和案例通常会介绍Python在数据分析领域的应用，包括数据清洗、数据可视化、统计分析、机器学习等内容。你可以根据自己的需求选择适合的视频进行学习和实践。另外，如果你对Python的数据分析有更具体的...