使用python进行数据分析

程序员王饱饱

已于 2024-01-06 19:00:14 修改

阅读量1.1k

点赞数

分类专栏： python python入门 Python编程文章标签：数据分析 python 信息可视化

于 2023-02-01 10:13:32 首次发布

本文链接：https://blog.csdn.net/weixin_55154866/article/details/128827662

版权

python 同时被 3 个专栏收录

571 篇文章 20 订阅

订阅专栏

python入门

389 篇文章 7 订阅

订阅专栏

Python编程

373 篇文章 4 订阅

订阅专栏

1.数据分析步骤

数据分析五个步骤
在这里插入图片描述
数据分析步骤

提出问题

提出一个好问题，是成功的一半。面对一堆数据，同样也需要提出问题，这样才能为后面的具体步骤找到方向和侧重点。

如某游戏公司想找一位明星为其新开发的游戏进行代言。明星那么多，如何才能话最少的钱，起到最大的宣传的效果呢？问题一旦提出来，就会从明星拥有粉丝的数量，最近的活跃度，明星的代言大概价位这个方面进行重点分析。

理解数据

包括三个方面：第一，采集数据。从定义的问题开始，采集相关的数据。第二，导入数据。要分析的数据会存储数据库或者excel文件中，也有可能在web的api的接口中。第三，查看数据集信息。包括数据统计信息。对数据整理理解，会数据分析建立一个宏观的认识。

数据清洗

数据清洗，也成数据预处理。因为数据在采集或存储过程中，有些数据不符合要求，不方面的后续的处理。因此需要对数据进行处理，变成能够被我们使用的格式。

构建模型

构建模型，也就是数学建模。根据问题难易程度，那么建模也有差异。简单的数据，如果一个餐馆一年的消费总金额，客单价，月均收入等。还有一些复杂的，需要利用机器学习，进行数据建模。

数据可视化

数据的分析，一定会有数据分析报告。我们既要会做，也要会说。为了更好的表达自己，那么展示的自己的成果的方式就是图标。通过可视化的方式，把自己的成果展示给自己的领导或客户看。

2. 要点总结

数据分析我们会用到numpy和pandas相关的库。对其中核心的要点总结如下

numpy

ndarray 是一个通用的同构数据多维容器，也就是说，其中的所有元素必须是相同的类型。每个数组都有一个shape（一个表示各维度大小的元组）和一个dtype（一个用于说明数组数据类型的对象）。
认为np.empty会返回全0数组的想法是不安全的。如下述例子

numpy 中empty的用法

跟列表最重要的一个区别就是数组切片是原始数组的视图，意味数据不会被赋值，视图上的任何修改都反应到源数组上。但是需要注意，切片的数组，其地址并不是和说原数组的地址一样。
花式索引。可以整数数组的方式进行索引。索引值可以整数数组列表或ndarray。使用负数，可以从尾部进行索引数组每行数组。但是返回的是一维数组，对应每个索引元组。
使用np.ix_函数，也可以将两个一维整数数组转换为一个用于选取方形区域的索引器。花式索引跟切片不一样，它总是将数据复制到新数组中。
转置和轴对换。转置是重塑的一种特殊形式，它返回的是源数据的视图（不会进行任何复制操作）。数组不仅有transpose方法，还有一个特殊的T属性。对于高维数组，transpose需要得到一个由轴编号组成的元组才能对这些轴进行转置。
通用函数（即ufunc）是一种对ndarray 中的数据执行元素级运算的函数。你可以将其看做简单函数（接受一个或多个标量值，并产生一个或多个标量值）的矢量化包装器。

许多ufunc是简单的元素级变体，如sqrt，exp

一些函数，如rint，四舍五入取最近的整数。modf，将数组的小数和整数部分分成两个独立数组。
NumPy 数组使你可以将许多种数据处理任务表述为简洁的数组表达式。用数组表达式代替循环的做法，通常称为矢量化。矢量化数组运算要比等价的纯python方式快上一两个数量级，尤其是各种数值计算。
numpy.where函数是三元表达式x if condition else y 的矢量化版本。np.where 的第二个和第三个参数不必是数组，它们都可以标量值。在数据分析工作中，where通常用于根据另一个数组而产生一个新的数组。
布尔值会被强制转换为1（True）和0（False）。因此，sum可以用来对布尔型数组中的True 值进行计数。
布尔数组还有两个方法any，all，它们对布尔型数组非常有用。any用于测试数组中是否存在一个或多个True,而all则检查数组中所有值是否都是True
跟python 内置的列表类型一样，Numpy数组也可以通过sort 方法就地排序。顶级方法np.sort返回的是数组已排序副本，而就地排序则会修改数组本身。计算数组分位数最简单的办法是对其进行排序，然后选取特定位置的值。
Numpy 提供了一些针对一维ndarray 的基本集合运算。最常用的可能要数np.unique。它用于找出数组中的唯一值并返回已排序的结果。
np.in1d用于测试一个数组中的值在另个一个数组中的成员资格，返回一个布尔型数组。
np.save 和np.load是读写磁盘数组数据的两个主要函数，默认情况下，数组是以未压缩的原始二进制格式保存在扩展名为.npy的文件中。
通过np.savez可以将多个数组保存到一个压缩文件中，将数组以关键字参数的形式传入即可。
dot函数，用于实现矩阵的点积。任何一个二维矩阵和一个合适的一维数组进行点积，得到是一个一维数组。x。dot(y) = np.dot(x,y)
矩阵论中，行列式，本征值，本征向量，矩阵的逆，QR分解，奇异值分解，最小二乘解，线性方程求解，需要再复习
随机数生成。numpy.random模块对python 内置random进行补充，可以生成多种概率分布的样本值函数。用normal 得到一个标准正太分布。而python的random函数只能一次只能生产一个。

pandas

Series， DataFrame,是pandas两种常用的数据类型；
Series 类似于一维数组的对象，数据类型包含numpy的数据类型，以及与之相对的数据标签构成
将Series 看成是一个定长的有序字典，因为他是索引值到数据值的一个映射。它可以用在许多原本需要字典参数的函数中。可以将数据存放在一个python的字典中，也可以直接通过这个字典来创建Series。
pandas 中有函数isnull，notnull 用于判断数组中数据是否为空，可以用于检测缺失数据。
Series最重要的功能在算术运算中将不同索引的数据进行自动对齐。
series 数组进行加法运算，两个数组都有的数据，那么会对里面的数据进行加法运算。没有的数据，会进行集合运算，但是对应的数据是NAN。
Series 对象本身及其索引都一个name的属性。该属性跟pandas其它的关键功能关系非常密切。
Series 的索引可以通过赋值来进行就地修改。
DataFrame是一个表格型数据结构，它含有一组有序的列，每列可以是不同的值类型。既有行索引，也有列索引，它可以被看做是Series 组成的字典。DataFrame 中面向行和面向列的操作基本上是平衡的。
DataFrame列用 columns，index 用于行索引
对DataFrame 的数据进行修改时，必须保证列表或数字和DataFrame的长度相匹配。
如果用Series进行赋值，就会精确匹配DataFrame的索引，所有的空位都将被填上缺失值。
DataFrame常见的数据形式是嵌套字典，就是字典中中的字典。对应的DataFrame，键的外层对是DataFrame的列，内层对应的是DataFrame的行索引。

DataFrame 的行列索引
如果有读取execl 文件，需要装载 xlrd 或openpyxl 安装包

3.遇到的问题

数据清洗时，出现告错

出现float 没有split属性的告警

当时出现这个告警时，一直没有找到原因。‘销售时间’，本来的数据是string，怎么会变成float的呢？打开数据表格，发现‘销售时间’这一列空的数据。而python中，空的数据是用NaN表示。NaN 和None 型是有差别的。差别如下
在这里插入图片描述
NaN型，对应的float的数据格式，所以他不具有split（）这个方法。