自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(60)
  • 收藏
  • 关注

原创 数据结构:稀疏数组与队列

文章目录稀疏数组环形队列(数组实现)稀疏数组当一个数组中大部分元素为0,或者为同一个值的数组时,可以使用稀疏数组来保存该数组。稀疏数组的处理方法:记录数组一共有几行几列,又多少个不同的值;把具有不同值的元素的行列及值记录在一个小规模的数组中,从而缩小程序的规模;二维数组转稀疏数组思路:遍历二维数组,找出有效数据个数sum;根据有效数据个数,确定稀疏数组规模sparseArray[sum+1][3];将二维数组数据传入稀疏数组;稀疏数组转原始二维数组思路:读取稀疏数组第一行,

2020-06-12 22:09:03 342

原创 五大排序算法学习

文章目录冒泡排序(Bubble Sort)选择排序(Selection Sort)插入排序(Insertion Sort)希尔排序(Shell Sort)快速排序(Quick Sort)https://www.runoob.com/w3cnote/ten-sorting-algorithm.html冒泡排序(Bubble Sort)算法原理冒泡排序的原理在于对无序表进行多趟比较交换,每趟包括多次两两相邻比较,并将逆序的数据项互换位置。最终,每趟对比完能将本趟的最大项就位,经过n-1趟比较,实

2020-06-10 21:07:37 371

原创 Java:String、int、char类型转换

https://www.zhihu.com/question/39633434/answer/7133721421.int转Stringpackage lesson3public class IntToStringDemo{ public static void main(String[] args){ int number = 520; //方式一:拼接字符串 String s1 = "" + number; System.out.

2020-06-06 21:24:58 345

原创 Kaggle实战:电子游戏销量分析(Vedio Game Sales)

数据源来自Kaggle,链接如下:https://www.kaggle.com/gregorut/videogamesales文章目录游戏题材各游戏题材的前五名各题材前五的发行商(销售总量)不同地区不同地区销售额变化趋势不同地区最受欢迎的游戏题材不同地区最受欢迎的发行商不同地区最受欢迎的游戏平台不同平台各大平台前五的游戏各大平台最受欢迎的游戏题材(数量最多的题材)对各平台贡献最大的发行商不同发行商各发行商在不同地区的总营收情况(以任天堂为例)在不同题材游戏上的营收情况(以任天堂为例)在不同平台上的营

2020-06-01 20:37:52 5180

原创 数据结构与算法:汉诺塔问题学习记录(疑问mooc测试题未通过)

文章目录三柱汉诺塔问题四柱汉诺塔问题三柱汉诺塔问题汉诺塔问题是法国数学家Edouard Lucas在1883年根据传说提出来的。传说在一个印度教寺庙里,由三根柱子,其中一根套着64个由小到大的黄金盘片,僧侣们的任务就是要把一叠黄金盘从一根柱子搬到另外一根,但是有两个规则:一次只能移动一个盘子大盘子不能叠在小盘子上三柱汉诺塔是经典的递归算法问题,其基本思路是1.将前n-1个盘子经由3#...

2020-04-30 14:53:19 311

原创 朴素贝叶斯:概率类模型的评估指标

文章目录1.布里尔分数Brier Score2.对数似然函数Log Loss3.可靠性曲线Reliability Curve4.预测概率的直方图5.校准可靠性曲线混淆矩阵和精确性可以帮助我们了解贝叶斯的分类结果。然而,我们选择贝叶斯进行分类,大多数时候都不是为了单单追求效果,而是希望看到预测的相关概率。这种概率给出预测的可信度,所以对于概率类模型,我们希望能够由其他的模型评估指标来帮助我们判断,...

2020-04-16 22:06:04 5362 2

原创 SVM中的样本不均衡问题

文章目录1.重要参数class_weight2.SVC的模型评估指标2.1混淆矩阵(Confusion Matrix)2.1.1模型整体效果:准确率(Accuracy)2.1.2捕捉少数类:精确度(Precision)2.1.3捕捉少数类:召回率(Recall)2.1.4调和平均数F1 measure2.1.5假负率(False Negative Rate)2.1.6判断多数类的考量:特异度(Sp...

2020-04-03 17:11:16 6033

原创 SVM中参数C的理解

有一些数据,可能是线性可分,但在线性可分状况下训练准确率不能达到100%,即无法让训练误差为0,这样的数据被我们称为“存在软间隔的数据”。此时此刻,我们需要让我们决策边界能够忍受一小部分训练误差,我们就不能单纯地寻求最大边际了。因为对于软间隔地数据来说,边际越大被分错的样本也就会越多,因此我们需要找出一个”最大边际“与”被分错的样本数量“之间的平衡。因此,我们引入松弛系数ζ\zetaζ和松弛系数...

2020-04-03 10:13:40 13499

原创 SVM不同核函数在不同数据集上的表现

文章目录1.重要参数kernel2.探索核函数在不同数据集上的表现3.核函数的优势及缺陷(量纲统一问题)1.重要参数kernel在sklearn中参数kernel有以下几种选项输入含义解决问题核函数表达式参数gamma参数degree参数coef0‘linear’线性核线性K(x,y)=xTy=x⋅yK(x,y)=x^Ty=x \cdot yK(x,y)=...

2020-04-02 15:22:01 2462

原创 线性SVM决策过程可视化

文章目录1.导入我们需要的模块2.创建数据集,查看分布情况3.理解contour函数4.画决策边界:制作网格,理解函数meshgrid5.绘制决策边界6.将上述过程包装为函数绘制思路:获取数据集的横纵坐标最大值及最小值(xlim,ylim)将横纵坐标轴平均分为n份(axisx,axisy)通过meshgrid函数进行广播,生成网格点(xy)通过SVC.decision_function...

2020-04-01 22:01:57 768

原创 线性SVM分类器的工作原理

文章目录线性SVM分类器的工作原理线性SVM损失函数的理解间隔与支持向量参数向量w\boldsymbol {w}w的方向虚线超平面与支持向量线性SVM的拉格朗日对偶函数和决策函数将损失函数从最初形态转换为拉格朗日乘数形态将拉格朗日函数转换为拉格朗日对偶函数求解拉格朗日对偶函数极其后续过程线性SVM分类器的工作原理线性支持向量机的分类方法,是在这组分布中找出一个超平面作为决策边界,使得模型在数据...

2020-04-01 17:08:27 1691 1

原创 Seaborn:直方图/密度图

文章目录1.直方图(sns.distplot)2.密度图(sns.kdeplot)单样本密度图双样本数据密度图多个密度图1.直方图(sns.distplot)import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns%matplotlib inlinesns.se...

2020-03-30 20:55:44 5728 2

原创 异常值分析:3σ法则/箱型图法

文章目录1.3σ原则(分析所得的异常值较少)2.箱型图分析法(一般采用此方法分析异常值)异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值也称离群点,异常值的分析也称为离群点的分析异常值分析 → 3σ原则 / 箱型图分析异常值处理方法 → 删除 / 修正填补(参考缺失值的处理方法)1.3σ原则(分析所得的异常值较少)3σ原则:如果数据服从正态分布,异常值被定义为一组测定值中与...

2020-03-27 22:00:29 11446 1

原创 缺失值处理:拉格朗日插值法

在若干个不同的地方得到相应的观测值,拉格朗日插值法可以找到一个多项式,其恰好在各个观测的点取到观测到的值。这样的多项式称为拉格朗日(插值)多项式。数学上来说,拉格朗日插值法可以给出一个恰好穿过二维平面上若干个已知点的多项式函数。本文介绍通过拉格朗日插值法进行缺失值的填充:先用一组简单的数据看一下拉格朗日插值法from scipy.interpolate import lagrangeimp...

2020-03-27 20:28:40 4087

原创 数据特征分析:相关性分析(Pandas中的corr方法)

文章目录1.图示初判两个变量之间的相关性(散点图)多变量之间的相关性(散点图矩阵)2.Pearson相关系数3.Spearman相关系数分析连续变量之间的线性相关程度的强弱介绍如下几种方法:图示初判Pearson相关系数(皮尔逊相关系数)Sperman秩相关系数(斯皮尔曼相关系数)1.图示初判拿到一组数据,可以先绘制散点图查看各数据之间的相关性:两个变量之间的相关性(散点图)...

2020-03-27 16:00:12 25118 1

原创 数据特征分析:正态性检验

文章目录1.直方图初判2.QQ图初判3.K_S检验理论推导Scipy计算利用观测数据判断总体是否服从正态分布的检验称为正态性检验,它是统计判决中重要的一种特殊的拟合优度假设检验。直方图初判 / QQ图初判 / K-S检验1.直方图初判import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplot...

2020-03-27 11:27:16 705

原创 数据特征分析:帕累托分析(贡献度分析)

帕累托分析(贡献度分析) → 帕累托法则:20/80定律“原因和结果、投入和产出、努力和报酬之间本来存在着无法解释的不平衡。一般来说,投入和努力可以分为两种不同的类型:多数,它们只能造成少许的影响;少数,它们造成主要的、重大的影响。”→ 一个公司,80%利润来自于20%的畅销产品,而其他80%的产品只产生了20%的利润例如:世界上大约80%的资源是由世界上15%的人口所耗尽的世界财富...

2020-03-27 09:41:59 3537 1

原创 数据特征分析:统计分析

文章目录1.集中趋势度量(指一组数据向某一中心靠拢的倾向,核心在于寻找数据的代表值或中心值)1.统计平均数(简单算数平均数、加权平均数)2.位置平均数(众数、中位数)2.离中趋势度量(指一组数据中各数据以不同程度的距离偏离中心的趋势)1.极差与分位差2.方差与标准差统计指标对定量数据进行统计描述,常从集中趋势和离中趋势两个方面进行分析,本文介绍几个简单的集中趋势度量指标与离中趋势度量指标。1....

2020-03-26 16:57:20 751

原创 数据特征分析:对比分析

文章目录1.绝对数比较(相减)2.相对数比较(相除)1.结构分析2.比例分析3.空间比较分析(横向对比分析)4.动态对比分析(纵向对比分析)对比分析 → 两个互相联系的指标进行比较绝对数比较(相减) / 相对数比较(相除)结构分析、比例分析、空间比较分析、动态对比分析1.绝对数比较(相减)在绝对数比较中,相互对比的指标在量级上不能差别过大创建一组随机数,分别代表A产品的销量和B产品的销...

2020-03-26 11:23:53 1530

原创 数据特征分析:分布分析

文章目录1.数据导入,查看数据基本情况:2.极差(只针对定量字段)3.频率分布情况(定量字段)4.概率分布情况(区间分组)定量字段定性字段分布分析 → 研究数据的分布特征和分布类型,本文中介绍定量数据、定性数据分布分析的基本方法分布分析涉及的基本统计量:极差 / 频率分布情况 / 分组组距及组数选择深圳罗湖二手房信息数据为例:1.数据导入,查看数据基本情况:import numpy as...

2020-03-25 20:45:00 1587

原创 QGIS:上海市商城密度/上海市道路网密度可视化操作步骤

1.创建网格注意,在网格创建前需要将形文件的坐标系改为投影坐标系!!!!选择输出为多边形,方便后续裁剪。2.网格裁剪输入矢量图层:选择被裁剪的对象;裁剪图层:选择裁剪的参照裁剪结果:3.上海市商城密度载入上海市商城位置数据:计算网格内点的个数,保存为新的形文件(字段名为count):可视化:右键点击新建图层,选择属性属性内选择样式,顶部选择渐进,列选择为刚才...

2020-03-25 11:53:49 2789 2

原创 Pandas:表格样式

文章目录表格样式创建对所有元素样式进行处理:applymap()按行/列处理样式:apply()样式索引、切片表格显示控制按照百分数显示显示小数点位数显示正负数分列显示格式化表格样式调用(Styler内置样式调用)定位空值色彩映射条形图分段式构建(多种表格样式混合)表格样式创建表格视觉样式:Dataframe.style → 返回pandas.Styler对象的属性,具有格式化和显示Dataf...

2020-03-23 21:49:17 501

原创 Matplotlib:极坐标图/雷达图

文章目录创建极坐标轴极坐标参数设置雷达图1 - 极坐标的折线图/填图 - plt.plot()雷达图2 - 极坐标的折线图/填图 - plt.polar()极轴图 - 极坐标的柱状图调用subplot()创建子图时通过设置projection=‘polar’,便可创建一个极坐标子图,然后调用plot()在极坐标子图中绘图创建极坐标轴# 创建极坐标轴s = pd.Series(np.ara...

2020-03-23 16:18:20 1363

原创 Matplotlib:箱型图(模板可直接套用)

文章目录plt.plot.box()绘制plt.boxplot()绘制plt.boxplot()分组绘制箱型图:又称为盒须图、盒式图、盒状图或箱线图,是一种用作显示一组数据分散情况资料的统计图包含一组数据的:最大值、最小值、中位数、上四分位数(Q3)、下四分位数(Q1)、异常值① 中位数 → 一组数据平均分成两份,中间的数② 上四分位数Q1 → 是将序列平均分成四份,计算(n+1)/4与(...

2020-03-23 15:56:08 884

原创 Kaggle实战:Titanic生存预测(Top 8%)

准备入行数据分析领域,最近一直在学习数据分析的相关课程,刚刚将numpy以及pandas告一段落了,迫不及待的上Kaggle找个实战项目练练手,接下来将详细的过程记录如下。文章目录1.数据概览2.缺失值处理Embarked缺失值填充Fare缺失值填充Age缺失值填充3.数据分析Pclass对生存率的影响Name对生存率的影响Sex对生存率的影响家庭规模对生存率的影响Age对生存率的影响Emba...

2020-03-23 12:01:44 1135 1

原创 Matplotlib:散点图、矩阵散点图

文章目录1.散点图2.矩阵散点图(对比不同系列之间的关系)1.散点图# plt.scatter()散点图# plt.scatter(x, y, s=20, c=None, marker='o', cmap=None, norm=None, vmin=None, vmax=None, # alpha=None, linewidths=None, verts=None, edgecolors=...

2020-03-19 09:59:41 3786

原创 Matplotlib:直方图、密度图

文章目录1.直方图+密度图2.堆叠直方图plt.hist(x, bins=10, range=None, normed=False, weights=None, cumulative=False, bottom=None, histtype='bar', align='mid', orientation='vertical',rwidth=None, log=False, color=None...

2020-03-19 09:55:33 1005

原创 Matplotlib:面积图、填图、饼图

本文主要介绍四个函数的用法:plt.plot.area()plt.fill(), plt.fill_between()plt.pie()文章目录1.面积图2.填图3.饼图1.面积图# 面积图fig,axes = plt.subplots(2,1,figsize = (8,6))df1 = pd.DataFrame(np.random.rand(10, 4), columns=['...

2020-03-18 21:37:42 911

原创 Matplotlib:柱状图、堆叠图(.plot(kind='bar/barh') , plt.bar())

文章目录1.plot(kind = 'bar\barh')2.plt.bar()1.plot(kind = ‘bar\barh’)# 柱状图与堆叠图fig,axes = plt.subplots(4,1,figsize = (10,10))s = pd.Series(np.random.randint(0,10,16),index = list('abcdefghijklmnop')) ...

2020-03-18 15:00:41 12366 1

原创 Matplotlib:基本图表绘制(plt.plot)

文章目录1.Series直接生成图表2.Dataframe直接生成图表图表类别:线形图、柱状图、密度图,以横纵坐标两个维度为主同时可延展出多种其他图表样式plt.plot(kind='line', ax=None, figsize=None, use_index=True, title=None, grid=None, legend=False, style=None, logx=Fal...

2020-03-17 21:08:45 805

原创 Matplotlib:子图(subplot)

文章目录1.plt.figure() 绘图对象2.子图创建方法一:先建立画布对象(fig)在添加子图方法二:plt.subplot(常用)plt.subplots参数调整方法三:多系列图,分别绘制在matplotlib中,整个图像为一个Figure对象,在Figure对象中可以包含一个或者多个Axes对象,每个Axes(ax)对象都是一个拥有自己坐标系统的绘图区域1.plt.figure() ...

2020-03-17 20:28:25 541

原创 Matplotlib:刻度、注解、图表输出

文章目录1.刻度设置2.注解(图表注释)3.图表输出1.刻度设置# 刻度from matplotlib.ticker import MultipleLocator, FormatStrFormattert = np.arange(0.0, 100.0, 1)s = np.sin(0.1*np.pi*t)*np.exp(-t*0.01)ax = plt.subplot(111) #注...

2020-03-17 20:06:38 268

原创 Matplotlib:图表样式参数

文章目录1.linestyle参数2.marker参数3.color参数4.style参数5.整体风格样式1.linestyle参数# linestyle参数plt.plot([i**2 for i in range(100)], linestyle = '-.')# '-' solid line style# '--' dashed line s...

2020-03-17 19:56:40 204

原创 Matplotlib:图表内基本参数设置

文章目录1.图名(title),图例(legend),轴标签(xlabel、ylabel),轴边界(xlim、ylim),轴刻度(xticks、yticks),轴刻度标签2.其他元素可视性:网格grid()、刻度显示、刻度方向1.图名(title),图例(legend),轴标签(xlabel、ylabel),轴边界(xlim、ylim),轴刻度(xticks、yticks),轴刻度标签# 图名...

2020-03-17 17:24:20 259

原创 Pandas:常用的数据读取方法

文章目录1.read_table(读取txt、csv文件)2.read_csv(读取csv文件)3.read_excel(读取excel文件)1.read_table(读取txt、csv文件)# 读取普通分隔数据:read_table# 可以读取txt,csv(逗号分隔符的数据)import osos.chdir('C:/Users/public/Desktop/')data1 =...

2020-03-17 15:14:48 725

原创 Pandas:透视表及交叉表(pivot table / crosstab)

文章目录1.数据透视表(pivot_table)2.交叉表(crosstab)课后作业之前介绍过利用groupby探索数据集内部的关联性。数据透视表(pivot_table)是一种类似的操作方法,常见于Excel和类似的表格应用中。数据透视表将每一列数据作为输入,输出将数据不断细分成多个维度累计信息的二维数据表。与groupby相比,数据透视表更像是一种多维的groupby累计操作(虽然感觉pi...

2020-03-17 10:09:22 636

原创 Pandas:数据分组(groupby)

文章目录1.分组分组的基本方法分组后各组内信息提取方法按照数值类型进行分组通过字典或Series进行分组通过函数分组2.分组计算的函数方法单函数计算方法(与numpy类似)多函数计算(函数agg())3. 分组转换及一般性“拆分-应用-合并”数据分组转换transform一般化Groupby方法:apply课后作业当我们需要对某些标签或索引的局部进行累计分析时,就需要用到groupby了。虽然“...

2020-03-17 09:41:15 1429

原创 Pandas:去重及替换(.duplicated / .replace)

文章目录1.去重(.duplicated)2.替换(.replace)1.去重(.duplicated)# 去重 .duplicateds = pd.Series([1,1,1,1,2,2,2,3,4,5,5,5,5])print(s.duplicated())print(s[s.duplicated() == False])print('-----')# 判断是否重复# 通过布...

2020-03-16 22:14:51 405 1

原创 Pandas:连接与修补 concat、combine_first

文章目录1.连接concat2.连接方式:join,join_axes3.覆盖列名(用的较少,做了解)4.修补 pd.combine_first()课后作业pandas的pd.concat()函数与np.concatenate()语法类似,当时配置参数更多,功能也更强大:pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_i...

2020-03-16 21:55:21 788

原创 Pandas:合并连接操作merge、join

文章目录1.merge合并2.参数how:合并方式3.参数 left_on, right_on, left_index, right_index4.参数sort5.pd.join() → 直接通过索引连接课后作业pandas的基本特性之一就是高性能的内存式数据连接(join)和合并(merge)操作。Pandas的主接口是pd.merge函数。pd.merge(left, right, how...

2020-03-16 21:43:27 862

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除