动手学数据分析Task01_axis修改原始数据信息吗-CSDN博客

本文链接：https://blog.csdn.net/wensaaaa/article/details/118712070

学习前准备

Jupyter的用法，这个其实是task00的内容，但还是在进行task01时花费了一定的时间去了解学习。
Kaggle的注册还有数据的下载也花费了一定功夫，在这里很感谢刘楚楚小姐姐的视频，很简洁明白的让我开始了这次的学习。

对Pandas的认识

Pandas 是 Python (opens new window)的核心数据分析支持库，提供了快速、灵活、明确的数据结构，旨在简单、直观地处理关系型、标记型数据。
Pandas在数据处理方面十分灵活，功能十分强大。
Pandas 基于 NumPy (opens new window)开发，可以与其它第三方科学计算支持库完美集成。

载入数据

除了跟着刘楚楚小姐姐的视频一步步学习和认识，在搜去资料进行课程的过程中还是有一定困难，所以这一节的学习主要时按照答案去理解并跟着视频来逐步学习。

Pandas基础

Series (opens new window)是带标签的一维数组，可存储整数、浮点数、字符串、Python 对象等类型的数据。轴标签统称为索引。调用 pd.Series 函数即可创建 Series。
DataFrame 是由多种类型的列构成的二维标签数据结构，类似于 Excel 、SQL 表，或 Series 对象构成的字典。DataFrame 是最常用的 Pandas 对象，与 Series 一样，DataFrame 支持多种类型的输入数据

删除多余列的方式

1.del df[‘columns’] #改变原始数据
2.df.drop(‘columns’,axis=1)#删除不改表原始数据，可以通过重新赋值的方式赋值该数据
3.df.drop(‘columns’,axis=1,inplace=‘True’) #改变原始数据
（百度结果）

隐藏列元素

这里与上面删除多余列的2和3有关系，在答案中也有提到。

筛选

学习链接：pandas里面按条件筛选
reset_index()函数的作用是什么?
reset_index()函数的作用是用来重置索引。就是保留原本的index。

loc方法与iloc方法的对比：
loc需要列出出来列的位置以及行的名称；而iloc只需要列出列和行的位置。

探索性数据分析

排序

sort_index() 可将索引重新排序，意味着每行数据的位置跟着索引而变化。
数据值的排序主要使用 sort_values()，数值按大小顺序，字符按字母顺序。

sort_values这个函数中by参数指向要排列的列，ascending参数指向排序的方式（升序还是降序）

运算

学习运算内容
【提醒】两个DataFrame相加后，会返回一个新的DataFrame，对应的行和列的值会相加，没有对应的会变成空值NaN。

查看数据基本统计信息

describe()函数就是返回这两个核心数据结构的统计变量。其目的在于观察这一系列数据的范围、大小、波动趋势等等，为后面的模型选择打下基础。
缺失值由NaN补上，如果为NaN，说明此列的信息不可以用这个统计变量进行统计的。注意，数值列和字母列是不一样的。

统计值变量说明：

count：数量统计，此列共有多少有效值
unipue：不同的值有多少个
std：标准差
min：最小值
25%：四分之一分位数
50%：二分之一分位数
75%：四分之三分位数
max：最大值
mean：均值
————————————————
版权声明：本文为CSDN博主「程序员在旅途」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/qq_24754061/article/details/103738513