【编程】Python数据分析模块
【编程】Python数据分析模块
越吃越胖
学
展开
-
Python_数据分析_pandas_06合并与连接
1. 合并与连接合并与链接基于pandas的merge()函数,链接的种类分为一对一链接、多对一链接、多对多链接1.1 设置合并的键基础的方式是on合并的数据集列名不一致时:left_on right_on1.2 设置合并的规则内连接设置how = ‘inner’ 是默认设置(数据库中的inner join)内连接对应的是外连接 outer左连接left 对应右链接 right2.案例:美国州数据2.1 数据说明数据链接为: https://github.com/原创 2020-05-19 23:18:25 · 1142 阅读 · 0 评论 -
Python_数据分析_pandas_05数据集合并
1. 合并数据集基本函数为:pd.concat(objs, axis=0, join = ‘outer’, join_axes = None, ignore_index = False, verify_intergrity=Flase)List itemobjs为合并对象,列表表示 [A, B]axis是坐标轴方向,默认0按行合并join有outer inner两种方式,及列取全集 交集join_axes是针对不同列明自定义保留列ignore_index:是无视索引verify_int原创 2020-05-18 01:10:33 · 1106 阅读 · 0 评论 -
Python_数据分析_pandas_04缺失值处理
1. 缺失值处理缺失值处理主要有三个内容、四个函数:发现缺失值(isnull() notnull())、删除缺失值(dropna())、填补缺失值(fillna())首先创建一个矩阵1.1 发现缺失值发现缺失值是生成布尔类型的掩码数据,两个函数相反1.2 删除缺失值基本类型dropna(axis=0, how =‘any’,tresh) ,其中axis是按行还是按列删除、how有两种any-有缺失值即删除和all-全部确实删除、tresh是限定非缺失值的数量eg1:有缺失删除该列e原创 2020-05-16 23:20:14 · 2141 阅读 · 0 评论 -
Python_数据分析_pandas_03数值运算
1. 运算类型add(+) sub(-) mul(*) div(/) floordiv(//) mod(%) pow(**)构建两个DataFrame1.1 add运算加固定值、加某一行、加某一列两个矩阵相加1.2 sub运算这里展示一个按行减改行最小值1.3 div运算其他用法类似,这里展示一下俺行进行归一化处理,即(value-min)/(max-min)...原创 2020-05-16 22:43:47 · 1621 阅读 · 0 评论 -
Python_数据分析_Pandas_02数据取值与选择
2.数据取值与选择2.1 Series数据选择方法2.1.1 将Series看作字典利用键值对索引利用字典的表达式检测索引和值2.1.2 将Series看作一维数组可以利用索引-显式、隐式,掩码进行索引2.1.3 索引器 loc iloc ixloc:取值和切片都是显式的iloc:取值和切片都是隐式的ix:是混合形式,主要用于DataFrame2.2 DataFrame数据选择方法首先创建一个较为有意义的DataFrame对象2.2.1 将DataFra原创 2020-05-16 01:08:36 · 3345 阅读 · 0 评论 -
Python_数据分析_Pandas_01pandas对象简介
三个基本数据结构pandas有三个基本数据结构:Series,DataFrame和Index1.1 Series对象创建对象pd.Series(data, index=index)——data可以是标量,可以是字典;index是可选参数相比于NumPy数组,NumPy使用隐式定义数组索引获取数值;Pandas采用显式定义的索引获取数值,即索引可以自定义。常用函数:values、index1.2 DataFrame对象创建方式:通过字典列表创建、通过Series创建、通过Numpy创建原创 2020-05-16 00:28:33 · 2573 阅读 · 0 评论 -
python_数据分析_正则表达式
正则表达式就是记录文本规则的代码,我们将从正则表达式基础和re模块实现两个方面来说1.正则表达式基础正则表达式主要学习元字符,可以参考百度进行:https://baike.sogou.com/v107588.htm?fromTitle=%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F2.使用Python的re模块实现Python提供了re模块,用于...原创 2019-09-11 23:34:26 · 18283 阅读 · 0 评论 -
Python_数据分析_numpy模块
numpy可以说是Python运用于人工智能和科学计算的一个重要基础,关于库的引入不做赘述,主要分享一些总结的numpy库的用法。1、numpy数组(array)的创建1.1 array()通过array方式创建,向array中传入一个list实现import numpy as nparray1 = np.array([1, 2, 3])array2 = np.array([[1, ...原创 2019-08-07 00:43:12 · 19774 阅读 · 0 评论 -
Python_数据分析_读写excel(1)
接触到爬虫之后,会发现数据量越来越大,在进行格式化数据清洗阶段就会出现很多的问题,因此用程序来进行数据清洗确实能节省很多的时间。处理excel文件分为读和写。分别用到xlrd和xlwt库。1. 读文件读Excel表主要用到xlrd,这个库用起来十分方便,可以直接将excel看做二位数组。需要注意的是,在处理excel时,经常遇到excel单元格内出现多余的空格与Tab键,这种单元格处理起来不...原创 2019-05-22 17:11:03 · 22382 阅读 · 0 评论