Python 机器学习入门之pandas的使用

柳青阳

已于 2023-08-25 16:52:18 修改

阅读量274

点赞数

文章标签： python 机器学习 pandas

于 2023-08-25 16:48:59 首次发布

本文链接：https://blog.csdn.net/weixin_47066756/article/details/132498407

版权

文章目录

前言
一、pandas是什么？
二、使用步骤
- 1.引入库
- 2.读入数据
三、作用
四、Pandas常用操作
总结

前言

大概内容：

随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。

一、pandas是什么？

Pandas 是基于 NumPy 库的一个开源Python 数据分析库，它提供了丰富的数据结构和数据分析工具，使得数据处理成为了 Python 数据科学生态系统中必不可少的一环。

二、使用步骤

1.引入库

代码如下（示例）：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import  ssl
ssl._create_default_https_context = ssl._create_unverified_context

2.读入数据

代码如下（示例）：

data = pd.read_csv(
    'https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv')
print(data.head())

该处使用的url网络请求的数据。

三、作用

主要提供以下几个数据结构

Series 一维数据结构，类似于带标签的数组
DataFrame 二维数据结构，类似于 Excel 表格，每列可以是不同的数据类型
Panel 三维数据结构，可以看做是 DataFrame 的容器

四、Pandas常用操作

主要包括（示例）：读入数据、数据清洗、数据切片、数据聚合、数据重塑等

主要步骤如下：

读入数据：使用 read_csv() 、 read_excel() 等函数读取数据
数据清洗：处理缺失值、去重、数据类型转换、异常值处理等
数据切片：通过索引或标签选取数据
数据聚合：按照一定规律对数据进行分组统计
数据重塑：通过合并、拼接、堆叠、转换等方式改变数据的形状和结构。

代码如下（示例）：

import pandas as pd

# 读取数据
data = pd.read_csv('data.csv')

# 数据清洗
data.dropna(inplace=True)

# 数据切片
subset = data[['column1', 'column2']]

# 数据聚合
groupby = subset.groupby(['column1']).sum()

# 输出结果
print(groupby)

这里假设 data.csv 文件中包含 column1 和 column2 两列数据，我们首先使用 read_csv() 函数读取数据，然后对缺失值进行了处理，并从中选取 column1 和 column2 两列数据进行聚合统计，最后通过 groupby() 函数对 column1 进行分组求和，并输出结果。

总结

个人总结：
Pandas是一个Python数据操作和数据分析的重要库。它提供了强大的数据结构，如Series和DataFrame，以及各种数据操作和数据处理的函数，如数据清洗、数据聚合、数据分组等。Pandas库可以用于数据清洗、统计分析、可视化和机器学习等领域。

在数据清洗方面，Pandas库可以通过数据筛选、数据填充、数据转换等方法进行数据清理。在统计分析方面，可以使用Pandas库进行数据聚合、数据分组、数据透视等操作。在可视化方面，Pandas库可以使用Matplotlib、Seaborn等库进行数据可视化。

总之，Pandas是Python数据分析中不可或缺的工具之一，具有广泛的应用领域和强大的功能，对于分析和处理大量的数据非常有用。

以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

柳青阳

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
Python 机器学习入门之pandas的使用

随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。个人总结：Pandas是一个Python数据操作和数据分析的重要库。它提供了强大的数据结构，如Series和DataFrame，以及各种数据操作和数据处理的函数，如数据清洗、数据聚合、数据分组等。Pandas库可以用于数据清洗、统计分析、可视化和机器学习等领域。在数据清洗方面，Pandas库可以通过数据筛选、数据填充、数据转换等方法进行数据清理。
复制链接

扫一扫

Python 机器学习入门之pandas的使用

文章目录

前言

一、pandas是什么？

二、使用步骤

1.引入库

2.读入数据

三、作用

四、Pandas常用操作

总结

“相关推荐”对你有帮助么？