自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(49)
  • 收藏
  • 关注

原创 Seaborn:直方图/密度图

文章目录1.直方图(sns.distplot)2.密度图(sns.kdeplot)单样本密度图双样本数据密度图多个密度图1.直方图(sns.distplot)import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns%matplotlib inlinesns.se...

2020-03-30 20:55:44 5852 2

原创 异常值分析:3σ法则/箱型图法

文章目录1.3σ原则(分析所得的异常值较少)2.箱型图分析法(一般采用此方法分析异常值)异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值也称离群点,异常值的分析也称为离群点的分析异常值分析 → 3σ原则 / 箱型图分析异常值处理方法 → 删除 / 修正填补(参考缺失值的处理方法)1.3σ原则(分析所得的异常值较少)3σ原则:如果数据服从正态分布,异常值被定义为一组测定值中与...

2020-03-27 22:00:29 11646 1

原创 缺失值处理:拉格朗日插值法

在若干个不同的地方得到相应的观测值,拉格朗日插值法可以找到一个多项式,其恰好在各个观测的点取到观测到的值。这样的多项式称为拉格朗日(插值)多项式。数学上来说,拉格朗日插值法可以给出一个恰好穿过二维平面上若干个已知点的多项式函数。本文介绍通过拉格朗日插值法进行缺失值的填充:先用一组简单的数据看一下拉格朗日插值法from scipy.interpolate import lagrangeimp...

2020-03-27 20:28:40 4149

原创 数据特征分析:相关性分析(Pandas中的corr方法)

文章目录1.图示初判两个变量之间的相关性(散点图)多变量之间的相关性(散点图矩阵)2.Pearson相关系数3.Spearman相关系数分析连续变量之间的线性相关程度的强弱介绍如下几种方法:图示初判Pearson相关系数(皮尔逊相关系数)Sperman秩相关系数(斯皮尔曼相关系数)1.图示初判拿到一组数据,可以先绘制散点图查看各数据之间的相关性:两个变量之间的相关性(散点图)...

2020-03-27 16:00:12 25604 1

原创 数据特征分析:正态性检验

文章目录1.直方图初判2.QQ图初判3.K_S检验理论推导Scipy计算利用观测数据判断总体是否服从正态分布的检验称为正态性检验,它是统计判决中重要的一种特殊的拟合优度假设检验。直方图初判 / QQ图初判 / K-S检验1.直方图初判import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplot...

2020-03-27 11:27:16 763

原创 数据特征分析:帕累托分析(贡献度分析)

帕累托分析(贡献度分析) → 帕累托法则:20/80定律“原因和结果、投入和产出、努力和报酬之间本来存在着无法解释的不平衡。一般来说,投入和努力可以分为两种不同的类型:多数,它们只能造成少许的影响;少数,它们造成主要的、重大的影响。”→ 一个公司,80%利润来自于20%的畅销产品,而其他80%的产品只产生了20%的利润例如:世界上大约80%的资源是由世界上15%的人口所耗尽的世界财富...

2020-03-27 09:41:59 3618 1

原创 数据特征分析:统计分析

文章目录1.集中趋势度量(指一组数据向某一中心靠拢的倾向,核心在于寻找数据的代表值或中心值)1.统计平均数(简单算数平均数、加权平均数)2.位置平均数(众数、中位数)2.离中趋势度量(指一组数据中各数据以不同程度的距离偏离中心的趋势)1.极差与分位差2.方差与标准差统计指标对定量数据进行统计描述,常从集中趋势和离中趋势两个方面进行分析,本文介绍几个简单的集中趋势度量指标与离中趋势度量指标。1....

2020-03-26 16:57:20 857

原创 数据特征分析:对比分析

文章目录1.绝对数比较(相减)2.相对数比较(相除)1.结构分析2.比例分析3.空间比较分析(横向对比分析)4.动态对比分析(纵向对比分析)对比分析 → 两个互相联系的指标进行比较绝对数比较(相减) / 相对数比较(相除)结构分析、比例分析、空间比较分析、动态对比分析1.绝对数比较(相减)在绝对数比较中,相互对比的指标在量级上不能差别过大创建一组随机数,分别代表A产品的销量和B产品的销...

2020-03-26 11:23:53 1654

原创 数据特征分析:分布分析

文章目录1.数据导入,查看数据基本情况:2.极差(只针对定量字段)3.频率分布情况(定量字段)4.概率分布情况(区间分组)定量字段定性字段分布分析 → 研究数据的分布特征和分布类型,本文中介绍定量数据、定性数据分布分析的基本方法分布分析涉及的基本统计量:极差 / 频率分布情况 / 分组组距及组数选择深圳罗湖二手房信息数据为例:1.数据导入,查看数据基本情况:import numpy as...

2020-03-25 20:45:00 1719

原创 QGIS:上海市商城密度/上海市道路网密度可视化操作步骤

1.创建网格注意,在网格创建前需要将形文件的坐标系改为投影坐标系!!!!选择输出为多边形,方便后续裁剪。2.网格裁剪输入矢量图层:选择被裁剪的对象;裁剪图层:选择裁剪的参照裁剪结果:3.上海市商城密度载入上海市商城位置数据:计算网格内点的个数,保存为新的形文件(字段名为count):可视化:右键点击新建图层,选择属性属性内选择样式,顶部选择渐进,列选择为刚才...

2020-03-25 11:53:49 2844 2

原创 Pandas:表格样式

文章目录表格样式创建对所有元素样式进行处理:applymap()按行/列处理样式:apply()样式索引、切片表格显示控制按照百分数显示显示小数点位数显示正负数分列显示格式化表格样式调用(Styler内置样式调用)定位空值色彩映射条形图分段式构建(多种表格样式混合)表格样式创建表格视觉样式:Dataframe.style → 返回pandas.Styler对象的属性,具有格式化和显示Dataf...

2020-03-23 21:49:17 668

原创 Matplotlib:极坐标图/雷达图

文章目录创建极坐标轴极坐标参数设置雷达图1 - 极坐标的折线图/填图 - plt.plot()雷达图2 - 极坐标的折线图/填图 - plt.polar()极轴图 - 极坐标的柱状图调用subplot()创建子图时通过设置projection=‘polar’,便可创建一个极坐标子图,然后调用plot()在极坐标子图中绘图创建极坐标轴# 创建极坐标轴s = pd.Series(np.ara...

2020-03-23 16:18:20 1377

原创 Matplotlib:箱型图(模板可直接套用)

文章目录plt.plot.box()绘制plt.boxplot()绘制plt.boxplot()分组绘制箱型图:又称为盒须图、盒式图、盒状图或箱线图,是一种用作显示一组数据分散情况资料的统计图包含一组数据的:最大值、最小值、中位数、上四分位数(Q3)、下四分位数(Q1)、异常值① 中位数 → 一组数据平均分成两份,中间的数② 上四分位数Q1 → 是将序列平均分成四份,计算(n+1)/4与(...

2020-03-23 15:56:08 954

原创 Kaggle实战:Titanic生存预测(Top 8%)

准备入行数据分析领域,最近一直在学习数据分析的相关课程,刚刚将numpy以及pandas告一段落了,迫不及待的上Kaggle找个实战项目练练手,接下来将详细的过程记录如下。文章目录1.数据概览2.缺失值处理Embarked缺失值填充Fare缺失值填充Age缺失值填充3.数据分析Pclass对生存率的影响Name对生存率的影响Sex对生存率的影响家庭规模对生存率的影响Age对生存率的影响Emba...

2020-03-23 12:01:44 1158 1

原创 Matplotlib:散点图、矩阵散点图

文章目录1.散点图2.矩阵散点图(对比不同系列之间的关系)1.散点图# plt.scatter()散点图# plt.scatter(x, y, s=20, c=None, marker='o', cmap=None, norm=None, vmin=None, vmax=None, # alpha=None, linewidths=None, verts=None, edgecolors=...

2020-03-19 09:59:41 3802

原创 Matplotlib:直方图、密度图

文章目录1.直方图+密度图2.堆叠直方图plt.hist(x, bins=10, range=None, normed=False, weights=None, cumulative=False, bottom=None, histtype='bar', align='mid', orientation='vertical',rwidth=None, log=False, color=None...

2020-03-19 09:55:33 1011

原创 Matplotlib:面积图、填图、饼图

本文主要介绍四个函数的用法:plt.plot.area()plt.fill(), plt.fill_between()plt.pie()文章目录1.面积图2.填图3.饼图1.面积图# 面积图fig,axes = plt.subplots(2,1,figsize = (8,6))df1 = pd.DataFrame(np.random.rand(10, 4), columns=['...

2020-03-18 21:37:42 924

原创 Matplotlib:柱状图、堆叠图(.plot(kind='bar/barh') , plt.bar())

文章目录1.plot(kind = 'bar\barh')2.plt.bar()1.plot(kind = ‘bar\barh’)# 柱状图与堆叠图fig,axes = plt.subplots(4,1,figsize = (10,10))s = pd.Series(np.random.randint(0,10,16),index = list('abcdefghijklmnop')) ...

2020-03-18 15:00:41 12524 1

原创 Matplotlib:基本图表绘制(plt.plot)

文章目录1.Series直接生成图表2.Dataframe直接生成图表图表类别:线形图、柱状图、密度图,以横纵坐标两个维度为主同时可延展出多种其他图表样式plt.plot(kind='line', ax=None, figsize=None, use_index=True, title=None, grid=None, legend=False, style=None, logx=Fal...

2020-03-17 21:08:45 876

原创 Matplotlib:子图(subplot)

文章目录1.plt.figure() 绘图对象2.子图创建方法一:先建立画布对象(fig)在添加子图方法二:plt.subplot(常用)plt.subplots参数调整方法三:多系列图,分别绘制在matplotlib中,整个图像为一个Figure对象,在Figure对象中可以包含一个或者多个Axes对象,每个Axes(ax)对象都是一个拥有自己坐标系统的绘图区域1.plt.figure() ...

2020-03-17 20:28:25 667

原创 Matplotlib:刻度、注解、图表输出

文章目录1.刻度设置2.注解(图表注释)3.图表输出1.刻度设置# 刻度from matplotlib.ticker import MultipleLocator, FormatStrFormattert = np.arange(0.0, 100.0, 1)s = np.sin(0.1*np.pi*t)*np.exp(-t*0.01)ax = plt.subplot(111) #注...

2020-03-17 20:06:38 276

原创 Matplotlib:图表样式参数

文章目录1.linestyle参数2.marker参数3.color参数4.style参数5.整体风格样式1.linestyle参数# linestyle参数plt.plot([i**2 for i in range(100)], linestyle = '-.')# '-' solid line style# '--' dashed line s...

2020-03-17 19:56:40 214

原创 Matplotlib:图表内基本参数设置

文章目录1.图名(title),图例(legend),轴标签(xlabel、ylabel),轴边界(xlim、ylim),轴刻度(xticks、yticks),轴刻度标签2.其他元素可视性:网格grid()、刻度显示、刻度方向1.图名(title),图例(legend),轴标签(xlabel、ylabel),轴边界(xlim、ylim),轴刻度(xticks、yticks),轴刻度标签# 图名...

2020-03-17 17:24:20 267

原创 Pandas:常用的数据读取方法

文章目录1.read_table(读取txt、csv文件)2.read_csv(读取csv文件)3.read_excel(读取excel文件)1.read_table(读取txt、csv文件)# 读取普通分隔数据:read_table# 可以读取txt,csv(逗号分隔符的数据)import osos.chdir('C:/Users/public/Desktop/')data1 =...

2020-03-17 15:14:48 777

原创 Pandas:透视表及交叉表(pivot table / crosstab)

文章目录1.数据透视表(pivot_table)2.交叉表(crosstab)课后作业之前介绍过利用groupby探索数据集内部的关联性。数据透视表(pivot_table)是一种类似的操作方法,常见于Excel和类似的表格应用中。数据透视表将每一列数据作为输入,输出将数据不断细分成多个维度累计信息的二维数据表。与groupby相比,数据透视表更像是一种多维的groupby累计操作(虽然感觉pi...

2020-03-17 10:09:22 699

原创 Pandas:数据分组(groupby)

文章目录1.分组分组的基本方法分组后各组内信息提取方法按照数值类型进行分组通过字典或Series进行分组通过函数分组2.分组计算的函数方法单函数计算方法(与numpy类似)多函数计算(函数agg())3. 分组转换及一般性“拆分-应用-合并”数据分组转换transform一般化Groupby方法:apply课后作业当我们需要对某些标签或索引的局部进行累计分析时,就需要用到groupby了。虽然“...

2020-03-17 09:41:15 1676

原创 Pandas:去重及替换(.duplicated / .replace)

文章目录1.去重(.duplicated)2.替换(.replace)1.去重(.duplicated)# 去重 .duplicateds = pd.Series([1,1,1,1,2,2,2,3,4,5,5,5,5])print(s.duplicated())print(s[s.duplicated() == False])print('-----')# 判断是否重复# 通过布...

2020-03-16 22:14:51 460 1

原创 Pandas:连接与修补 concat、combine_first

文章目录1.连接concat2.连接方式:join,join_axes3.覆盖列名(用的较少,做了解)4.修补 pd.combine_first()课后作业pandas的pd.concat()函数与np.concatenate()语法类似,当时配置参数更多,功能也更强大:pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_i...

2020-03-16 21:55:21 805

原创 Pandas:合并连接操作merge、join

文章目录1.merge合并2.参数how:合并方式3.参数 left_on, right_on, left_index, right_index4.参数sort5.pd.join() → 直接通过索引连接课后作业pandas的基本特性之一就是高性能的内存式数据连接(join)和合并(merge)操作。Pandas的主接口是pd.merge函数。pd.merge(left, right, how...

2020-03-16 21:43:27 950

原创 Pandas:文本数据处理

文章目录1.通过str访问,且自动排除丢失/ NA值2.字符串常用方法(1) - lower,upper,len,startswith,endswith3.字符串常用方法(2) - strip去除字符串的空格4.字符串常用方法(3) - replace5.字符串常用方法(4) - split、rsplit6.字符串索引课后作业Pandas针对字符串配备的一套方法,使其易于对数组的每个元素进行操作...

2020-03-16 21:13:39 599

原创 Pandas:数值计算基本方法

文章目录1.基本参数:axis、skipna2.Series和DataFrame的主要计算方法3.unique()唯一值与sort()排序方法4.值计数:.value_counts()5.成员资格:.isin()课后作业作业一:如图创建一个Dataframe(5*2,值为0-100的随机值),并分别计算key1和key2的均值、中位数、累积和作业二:写出一个输入元素直接生成数组的代码块,然后创建一...

2020-03-16 20:45:32 1567

原创 Pandas:时间序列

本文介绍的日期与时间数据主要分为三类:时间戳表示某个具体的时间点(2019年7月4日上午7点)时间间隔与周期表示开始时间点与结束时间点之间的时间长度,例如2019年(指的是2019年1月1日至2019年12月31日这段时间间隔)周期通常是指一种特殊形式的时间间隔,每个间隔长度相同,彼此之间不会重叠(例如,以24小时为周期构成一天)时间增量(time delta)或持续时间(duration...

2020-03-15 22:38:39 1108

原创 Pandas:数据结构DataFrame

文章目录1.基本概念及创建DataFrame的数据结构DataFrame的创建方法(5种)2.索引选择行选择列df.loc用法df.iloc用法布尔型索引多重索引Pandas基本技巧数据查看、转置添加与修改删除对齐排序:sort_values排序:sort_index课后作业作业一:用四种不同的方法,创建以下Dataframe(保证columns和index一致,值不做要求)作业二:如图创建Dat...

2020-03-14 22:16:25 3156

转载 Typora使用方法大全

https://sspai.com/post/54912

2020-03-13 20:46:36 332

原创 Pandas:数据结构Series

一.Series的基本概念及创建1.Serise的相关概念# Series 数据结构# Series 是带有标签的一维数组,可以保存任何数据类型(整数,字符串,浮点数,Python对象等),轴标签统称为索引import numpy as npimport pandas as pd # 导入numpy、pandas模块s = pd.Series(np.random.rand(5)...

2020-03-13 18:15:20 2985

原创 Numpy:数据的输入与输出

1.存储数据# 存储数组数据 .npy文件import osos.chdir('C:/Users/Public/Desktop/')#os.chdir(path) 方法用于改变当前工作目录到指定的路径。#r表示原始字符串,避免\被当成转义字符,#也可写成os.chdir('C:/Users/Public/Desktop')#或者os.chdir('C:\\Users\\Public\...

2020-03-13 11:21:13 445

原创 Numpy:随机数(numpy.random模块的基本使用方法)

Python的标准库Random的基本使用方法:https://blog.csdn.net/weixin_44507435/article/details/1047749051.标准正态分布随机数的生成# 随机数生成samples = np.random.normal(size=(4,4))print(samples)# 生成一个标准正太分布的4*4样本值,#size:数组的形...

2020-03-13 10:50:55 1190

原创 Numpy:索引及切片(核心:基本索引及切片 / 布尔型索引及切片)

1.基本索引及切片# 基本索引及切片(对数据进行基本的定位和查找)ar = np.arange(20)print(ar)print(ar[4])print(ar[3:6])print('-----')# 一维数组索引及切片,与基本列表类型的索引切片方法一致ar = np.arange(16).reshape(4,4)print(ar, '数组轴数为%i' %ar.ndim) ...

2020-03-13 10:17:31 770

原创 Numpy:通用函数基本操作

1.数组形状# 数组形状:.T/.reshape()/.resize()ar1 = np.arange(10)ar2 = np.ones((5,2))print(ar1,'\n',ar1.T)print(ar2,'\n',ar2.T)print('------')# .T方法:转置,例如原shape为(3,4)/(2,3,4),转置结果为(4,3)/(4,3,2) → 所以一维数组...

2020-03-12 22:05:56 1198

原创 Numpy:基础数据结构

1.数组的基本属性import numpy as npar = np.array([1,2,3,4,5,6,7])print(ar) # 输出数组,注意数组的格式:中括号,元素之间没有逗号(和列表区分)print(ar.ndim) # 输出数组维度的个数(轴数),或者说“秩”,维度的数量也称rankprint(ar.shape) # 数组的维度,对于n行...

2020-03-12 21:43:35 474

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除