第一章：数据分析入门

最新推荐文章于 2023-05-03 15:46:45 发布

Hubert_xx

最新推荐文章于 2023-05-03 15:46:45 发布

阅读量238

点赞数

本文链接：https://blog.csdn.net/weixin_43857827/article/details/109815156

版权

数据处理是数据分析的核心部分，通过爬虫或者实际生产过程中初步获取的数据通常具有很多的“垃圾数据”，比如重复数据或者值缺失，不连续数据等等。这时就需要对数据首先进行筛选，补全等“清洗”操作。除此之外，“清洗”好的数据也需要根据不同的用途来进行转换，以适应分析，预测或者可视化的需求。

数据的处理的软件包有很多，在python中主要应用Pandas来进行处理。Pandas是一个十分成熟的数据处理包，熟练掌握可以高效并且方便地将数据进行转换和清洗，本节主要整理了pandas的一些基本技能和实用技巧，为励志成为数据分析师的你铺路搭桥。

引言：

Pandas 是基于 NumPy 的一个开源 Python 库，它被广泛用于数据分析，以及数据清洗和准备等工作。数据科学家经常和表格形式的数据**（比如.csv、.tsv、.xlsx）**打交道。Pandas可以使用类似SQL的方式非常方便地加载、处理、分析这些表格形式的数据。搭配Matplotlib和Seaborn效果更好。

pandas可以满足以下需求：

具备按轴自动或显式数据对齐功能的数据结构。这可以防止许多由于数据未对齐以及来自不同数据源（索引方式不同）的数据而导致的常见错误、集成时间序列功能、既能处理时间序列数据也能处理非时间序列数据的数据结构、数学运算和简约（比如对某个轴求和）可以根据不同的元数据（轴编号）执行；
灵活处理缺失数据；
在实际构建任何模型之前，任何机器学习项目中的大量时间都必须花费在准备数据，分析基本趋势和模式上。因此需要Pandas来进行处理。

pandas入门操作

导入模块

import numpy as np
import pandas as pd

打印版本

pd.__version__

在这里插入图片描述
生成数据：Python字典数据和Python列表标签

data = {
   'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, np.nan, 5, 2,</

最低0.47元/天解锁文章

Hubert_xx

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫