python数据分析
文章平均质量分 69
柳小葱
北京市某高校管理科学与工程专业的学生,主要研究方向是人工智能与大数据,二进宫字节,曾担任字节跳动大数据开发实习生、滴滴出行数据研发及分析实习生,目前已获数据库系统工程师(软考中级)、阿里云大数据助理工程师(ACA)证书。欢迎大家一起学习和交流!
展开
-
python数据分析之pandas数据合并
🌷这一章节来介绍pandas中的DateFrame实现数据合并的操作,类似于SQL中的内连接、外连接的操作.原创 2022-10-12 22:22:20 · 7187 阅读 · 0 评论 -
matplotlib学习之直方图
今天学习直方图直方图的函数#其中 a 是数据 ,num_bins是要分的组数plt.hist(a,num_bins)在直方图中最重要的就是把数据分成多少租来统计,组数要适当,太多了会有统计误差,太少了规律不明显。组数:将数据分组,当数据在100个左右时,应当分为5-12组合适组距:每个组之间的距离组数=极差/组距=(max(a)-min(a))/bin_width开始实践 采用250部电影的时长数据,画出直方图rom matplotlib import pyplot as pltf原创 2020-06-27 12:24:05 · 447 阅读 · 0 评论 -
python数据分析之卡方检验、T检验、方差分析
????今天就来记录一下自己学习的统计学的知识,介绍几种参数检验,并用python来进行实践,并进行解释,有错误的地方,或者不足的地方还请大家指正。1.常见概念的介绍1.1 常见的检验方式参数检验:在总体分布形式已知的情况下,对总体分布的参数如均值、方差等进行推断的方法。非参数检验:在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法。由于非参数检验方法在推断过程中不涉及有关总体分布的参数,因而得名为“非参数”检验。1.2 原假设和备择假设原假设(H0H_0H0)原创 2021-07-18 00:23:16 · 4476 阅读 · 4 评论 -
python数据分析之DataFrame内存优化
????今天看案例的时候看见了一个关于pandas数据的内存压缩功能,特地来记录一下。????先说明一下情况,pandas处理几百兆的dataframe是没有问题的,但是我们在处理几个G甚至更大的数据时,就会特别占用内存,对内存小的用户特别不好,所以对数据进行压缩是很有必要的。目录1. pandas查看数据占用大小2. 对数据进行压缩3. 参考资料1. pandas查看数据占用大小给大家看一下这么查看自己的内存大小(user_log是dataframe的名字)#方法1 就是使用查看datafram原创 2021-07-11 14:49:45 · 2556 阅读 · 6 评论 -
python正则表达式入门
????今天我们来学习python的正则表达式的部分,先说下为什么要学习这一部分呢,当然是因为正则表达式处理文本类型的数据实在是太方便了。为以后进入nlp领域打打基础!先给大家推荐一个网站: 用于正则表达式验证.大致就长这个样子。这里写目录标题1.基础知识2.贪婪模式和非贪婪模式3.反斜杠的用途4.中括号的用法5.匹配启始和结束位置6.括号的用法---组选择7.正则表达式切割字符总结1.基础知识普通字符:普通字符的含义就是字节匹配他们。特殊字符:它们出现在正则表达式中,不是直接匹配他们,而是原创 2021-07-04 20:24:26 · 4586 阅读 · 91 评论 -
python读取16G文件CSV数据。
????今天应大家的需求,给大家演示一下python读取较大的文件数据。这里写目录标题1.文件大小2.环境准备2.1 你需要准备一个至少40G的空间2.2 转换数据3.python读取数据4.总结1.文件大小给大家看看文件大小。2.环境准备2.1 你需要准备一个至少40G的空间我们知道pandas无法一次性读取这么大的文件,但是sqlite3可以,并且sqlite3自带sqlites3,我们只需将其转化为.db.db.db结尾的文件。切记将下载的sqlite3和你的数据放在同一个文件夹里点原创 2021-06-18 14:54:21 · 1247 阅读 · 8 评论 -
python机器学习之数据探索
????今天我们来讲解数据建模之前需要处理的工作。原创 2021-06-07 19:14:56 · 2112 阅读 · 11 评论 -
python之时间序列算法(ARMA)
关于时间序列的算法,我想把它们分成两类:基于统计学的方法。基于人工智能的方法。传统的统计学的方法:从最初的随机游走模型(RW)、历史均值(HA)、马尔科夫模型、时间序列模型和卡尔曼滤波模型。RW和HA依赖与理论假设,并未考虑交通流的波动性,以致预测结果与现实存在很大差异;而马尔科夫模型、时间序列模型和卡尔曼滤波模型则根据现有道路的历史交通流数据假定交通流符合某种概率分布,从而进行训练,估计出模型参数。今天我们介绍最经典的统计学算法——自回归滑动平均模型(ARMA)。1.介绍ARMA大家都知道,原创 2021-04-08 21:25:51 · 22807 阅读 · 31 评论 -
python数据分析之pandas时间序列
在日常工作中,比较常见的事情就是对日期格式的数据进行处理,日期的表达方式有很多种,可以有很多种表达方式。接下来我将分两部分来介绍:日期数据的处理时间序列1.日期数据的处理技巧1.1日期数据形式的转换这里主要使用to_datatime这个函数进行时间类型数据的转换pd.to_datatime(arg,errors="ignore",dayfirst=False,yearfirst=False,utc=None,box=True,format=None,exact=Teue,infer_data原创 2021-04-05 14:04:44 · 1296 阅读 · 1 评论 -
python数据分析之Dataframe分组(group by)
Dataframe分组统计group by函数对数据进行分组统计主要使用Dataframe函数,其功能如下:根据给定的条件将数据拆分成组。每个组都可单独应用函数(如sum、mean、std等)。将结果合并到一个数据结果中。语法如下:Dataframe.groupby(by=None,axis=0,level=None,as_index=True,sort=True,group_keys=True,squeeze=False,observed=False)"""by:字典,映射,serie原创 2021-03-24 15:06:43 · 64840 阅读 · 2 评论 -
python数据分析之DateFrame数据排序和排名
1.数据排序DataFrame.sort_values(by,axis=0,ascending=True,inplace=False,kind="quicksort",na_position="last",ignore_index=False)"""by:要排序的名称列表axis:轴,0表示行,1表示列ascending:升序或者降序排列,默认是True,升序inplace:是否直接在数据上修改,True为直接修改df,False为副本kind:指定排序算法,na_position:空值(N原创 2021-03-21 20:27:51 · 6184 阅读 · 8 评论 -
python数据分析之pandas设置索引
1.索引的作用索引的作用相当于图书的目录,可以根据目录中的页码快速找到所需的内容。更方便地查询数据使用索引可以提升查询性能多维索引用于多维聚类重设索引有一个很重要的方法reindex,它的作用是创建一个适应新索引的对象。语法如下:DataFrame.reindex(labels=None,index=None,column=None,axis=None,method=None,copy=True,level=None,fill_value=nan,limit=None,tolerance=N原创 2021-03-21 18:14:06 · 4741 阅读 · 0 评论 -
python数据分析之pandas空值、重复值的处理
1.首先查看数据信息import pandas as pdpd.set_option('display.max_rows',1000)#设置展示最高行数pd.set_option('display.max_columns',1000)#设置展示最高列数pd.set_option('display.unicode.east_asian_width',True)#列对齐df=pd.read_excel(r"C:\Users\Administrator\Desktop\python数据分析Code\Co原创 2021-03-20 11:18:20 · 1726 阅读 · 1 评论 -
python数据分析之DataFrame的增、删、改
1.先显示原始数据import pandas as pdpd.set_option('display.unicode.east_asian_width',True)data=[[120,98,89],[105,89,59],[110,120,100],[95,119,99]]index_name=['小红','小兰','小吕','小白']columns=['数学','物理','英语']df=pd.DataFrame(data,index=index_name,columns=columns)p原创 2021-03-18 23:30:02 · 1279 阅读 · 0 评论 -
python数据分析之DataFrame的数据抽取
pandas的数据抽取主要采用.loc和.iloc来取出自己需要的某行和某列的数据1.介绍.loc和.ilocdf.loc[ ]:主要是通过列名和行名来抽取数据,当只有一个参数时,默认是行名,即抽取这一行的数据。df.iloc[ ]:主要是通过行索引和列索引来抽取数据,当只有一个参数时,默认为取某一行的数据。df.iat[ ]:主要是定为dataframe中的某一个数据,如df.iat[2,2],定位的为(3,3)的数据。2.对行数据的抽取初始化数据:#pandas之数据抽取import p原创 2021-03-18 17:27:12 · 13661 阅读 · 3 评论 -
python数据分析之pandas导入外部数据
1.文件路径的问题如果使用系统默认的文件路径“\”,那么在python中则需要在路径最前面加一个r,避免符号被转义相对路径:相对路径即以当前文件为基础,从而一级一级指向被引用的资源文件。…/: 表示当前文件所在目录的上一级目录。./: 表示当前文件所在的目录。/: 表示当前文件所在的根目录绝对路径:是指文件真实存在的路径,是指从硬盘的根目录开始,从而一级级目录指向文件。2.导入.xls或者.xlsx文件#只列出几个常用的参数pandas.read_excel(io,sheetname原创 2021-03-17 22:59:56 · 650 阅读 · 1 评论 -
python数据分析之Dataframe学习
pandas中的Dataframe是由多种类型组成的一种二维数据结构。1.介绍创建Dataframe的函数参数pandas.Dataframe(data,index,columns,dtype,copy)"""data:表示输入数据,可以为ndarray数组,series对象,列表,字典等index:设置行索引columns:设置列索引dtype:每一列的数据类型copy:用于复制数据"""2.创建Dataframe的方式通过二维数组和字典创建import pandas as p原创 2021-03-15 23:01:34 · 1026 阅读 · 2 评论 -
python数据分析之Series学习
Series是Dataframe中的一维数组对象,本文主要介绍Series的一些用法。1.解决列名输出不齐,行列显示不全的问题import pandas as pdpd.set_option('display.unicode.east_asian_width',True)#解决列名输出不齐df=pd.read_excel('C:\\Users\\Administrator\\Desktop\\python数据分析Code\\Code\\03\\01\\data.xlsx')#以下两行解决行列输出不原创 2021-03-15 21:40:12 · 752 阅读 · 0 评论 -
python数据分析之seaborn常见统计图
2021年第一篇博客1.Seaborn介绍为了使用Python分析一组数据,我们使用了Matplotlib,这是一个广泛实现的2D绘图库。同样,Seaborn是Python中的可视化库。它建立在Matplotlib之上。Seaborn有助于解决Matplotlib面临的两个主要问题; 问题是默认的Matplotlib参数使用数据框架随着Seaborn对Matplotlib的称赞和扩展,学习曲线非常渐进。如果你知道Matplotlib,你已经在Seaborn的中途了。Seaborn构建于Py原创 2021-01-02 13:58:17 · 1343 阅读 · 0 评论 -
python机器学习之手写K-means算法
上一期的机器学习算法更新到岭回归,然后看完了非监督的聚类算法就进入到深度学习了,机器学习剩下几章没更新,这几天上课时候老师讲到Kmeans算法,于是我就觉得手写一下Kmeans算法,加深对聚类算法的理解。1. K-means算法原理K-means算法的思想:首先从数据集中随机选取K个点作为初始中心点。然后分别计算所有点到这K个点的距离,每个点选取距离最小的中心点将他们归成一类。重现计算各个类中所有点的平均值,选出新的中心点再次计算所有点到新的中心的距离,然后归类。循环多次,当中心点变...原创 2020-11-21 17:37:56 · 1047 阅读 · 2 评论 -
pandas解决输出时列名不对齐的问题
打印数据集时数据对不齐添加语句pd.set_option("display.unicode.east_asian_width",True)数据对齐原创 2020-11-16 14:16:24 · 2730 阅读 · 0 评论 -
python对英文文本进行one—hot编码
1.单词级的one-hot编码(numpy编写)#单词级别的one-hot编码import numpy as npsamples=['this cat sat on the mat',"this dog ate my homework"]token_index={}#构造一个空的索引集合for sample in samples: for word in sample.split():#将句子拆分成一个一个单词 if word not in token_index:原创 2020-11-14 20:11:17 · 1483 阅读 · 0 评论 -
python实战之一元线性回归(数理统计)
1.数据分析要求数据集展示了m城市人口初次来m城市的时间、迁离m城市的时间、现在的收入。现假设外来人口在m城市的居住时间影响他们的收入。试加以分析和证明。(1)展示数据集的结构。(2)显示前10条数据记录。(3)将变量名重新命名为英文变量名。不能使用Excel处理数据。(4)计算自变量的最小值、中位数、均值、最大值和标准差,要求保留2位小数。注意:因变量转换为对数。(5)计算因变量(转换为对数值)和自变量的相关系数,要求保留2位小数。(6)绘制因变量与自变量的散点图。(7)利用一元线性回归模原创 2020-11-14 18:55:02 · 1414 阅读 · 0 评论 -
python机器学习之sklearn线性回归
线性回归监督学习中,如果预测的变量是离散的,我们称其为分类(如决策树,支持向量机等),如果预测的变量是连续的,我们称其为回归。回归分析中,如果只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。对于二维空间线性是一条直线;对于三维空间线性是一个平面,对于多维空间线性是一个超平面。...原创 2020-10-02 12:36:03 · 3627 阅读 · 2 评论 -
python机器学习之sklearn数据集划分
1.sklearn数据集sklearn中自带了一些数据集供我们使用其中datasets.load_()数据集较小,已经随sklearn下载到我们的电脑中,而datasets.fetch_()数据集较大,需要下载返回的数据类型例如: from sklearn.datasets import load_irisload=load_iris()print("数据特征值:",load.data)print("数据集目标值",load.target)2.数据集的分割train_test_s原创 2020-09-15 12:22:49 · 2913 阅读 · 0 评论 -
Python数据分析之fit,fit_transform和transform
最近学习了sklearn中数据的标准化其实出了fit_transform函数概述1. fit()fit函数主要用来计算一组数据的特征值,例如平均值,方差,中位数等等固定属性。2.transformtransform这个函数主要是就是进行标椎化,降维,归一化等操作3.fit_transformfit_transform这个函数主要就是将上述fit函数和transform函数结合起来一步操作,例如标椎化过程,首先计算方差和平均值,然后再进行标准化(比如标准化~N(0,1))。注:根据对之前部分转载 2020-09-13 11:11:54 · 11616 阅读 · 0 评论 -
python机器学习之数据降维(sklearn)
特征选择(删除方差较小的特征值)sklearn的APIfrom sklearn.feature_selection import VarianceThreshold例如var=VarianceThreshold(threshold=0.0)#threshold就是只方差的大小默认为0,如果是填1,就是值删除方差0-1的所有特征值 data=var.fit_transform([[1,3,6,2],[1,2,4,3],[1,8,5,3]]) print(data)PCA(主成原创 2020-09-10 18:08:15 · 1646 阅读 · 0 评论 -
Python机器学习之缺失值填补(sklearn)
jaskldksjdlaksda原创 2020-09-06 08:21:05 · 1585 阅读 · 0 评论 -
python机器学习之特征值处理(sklearn)
数据特征处理在机器学习的算法训练中,有很多数据的特征值不止一个,特征值中有些属性的数字过大,从而对计算结果的影响太大,但是实际情况是每个属性都同等重要,这时候就要处理这种不同取值范围的特征值,通常采用数值归一化,将取值范围处理为0-1或者其他范围之间。1.数据归一化:sklearn归一化APIfrom sklearn.preprocessing import MinMaxScaler举例: mm=MinMaxScaler(feature_range=(0,1))#feature_range原创 2020-09-03 23:44:42 · 2706 阅读 · 0 评论 -
python机器学习之特征提取(scikit-learn)
前几天ubuntn16虚拟机又被弄爆了,这几天配置了一个深度deepin的系统,然后安装完anaconda和pycharm配置好环境解决了matplotlib中文现实问题。进入正题1.Sklearn简介Scikit-learn(sklearn)是机器学习中常用的第三方模块,对常用的机器学习方法进行了封装,包括回归(Regression)、降维(Dimensionality Reduction)、分类(Classfication)、聚类(Clustering)等方法。当我们面临机器学习问题时,便可选择相原创 2020-09-02 12:45:41 · 3088 阅读 · 0 评论 -
pandas之数据的分组与合并
1. 数据的分组之构建01矩阵先看看数据这里是一个csv的文件,里面有电影title和分类class两列 我要做的事情就是统计class中属于a,b,c,d四类的电影各有多少,我会先构造01矩阵 例如:在这个矩阵中,属于哪个类别的会取值为1,不属于则取值为0,最后将a,b,c,d各列相加,得出数据。当然01矩阵的用途还有很多 ,以后遇到会拿出来讲解。看看代码实现(python)import pandas as pdimport numpy as npfrom matplotlib impo原创 2020-08-02 22:50:36 · 1722 阅读 · 0 评论 -
numpy中的nan和常用方法
1.数组的拼接数组的竖直和水平拼接#数据竖直拼接t3=np.vstack((t1,t2))#数据水平拼接t4=np.hstack((t1,t2))例如:import numpy as npt1=np.arange(12).reshape(2,6)t2=np.arange(12,24).reshape(2,6)print(t1)print(t2)print("*"*100)#数据竖直拼接t3=np.vstack((t1,t2))print(t3)print("*"*10原创 2020-07-17 23:15:43 · 2365 阅读 · 0 评论 -
python科学计算之numpy学习
numpy介绍numpy是一个python中做科学计算的基础库,重在数值计算,也是其他科学计算库的基础库,多`用在于大型的,多维数组上执行数值运算原创 2020-07-05 00:24:06 · 263 阅读 · 0 评论