自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 精确率 召回率 RoC曲线 PR曲线

1  TP, TN, FP, FN的概念    图如下所示,里面绿色的半圆就是TP(True Positives), 红色的半圆就是FP(False Positives), 左边的灰色长方形(不包括绿色半圆),就是FN(False Negatives)。右边的 浅灰色长方形(不包括红色半圆),就是TN(True     Negatives)。这个绿色和红色组成的圆内代表我们分类得到模型结果认为是正...

2018-05-11 11:39:03 2663

原创 交叉验证(Cross Validation)与网格搜索(Grid Search)的原理及实证分析

1.背景在机器学习算法中,当数据量不充分时,需要对数据进行重复使用,就出现了交叉验证方法(Cross Validation).交叉验证顾名思义就是重复使用数据,把数据分为训练集(Trading Set)、验证集(Validation Set)、测试集(Test Set),每次随机选出n组数据,用训练集训练出n个模型,测试集对n个模型进行评价,选出最终模型。2.方法 (1)简单交叉验证       ...

2018-05-09 17:25:09 9250

原创 梯度下降法小结

1.背景:    在机器学习中,对于无约束条件的优化问题,一般有两种方法,梯度下降法和最小二乘法,而梯度下降法是目前最常用的方法。2.梯度的概念:    梯度是指在多元函数中,对各个解释变量求偏导数,再由这些偏导数组成的向量,例如:函数f(x,y,z),它的梯度就是(∂f/∂x, ∂f/∂y,∂f/∂z)T,简称grad f(x,y,z)或者▽f(x,y,z)3.梯度的目的和意义:    求解梯度...

2018-05-08 16:43:34 1972

原创 写论文中遇到的常见技术问题

0.读取文件pd.csv('a.csv'),如果出现UnicodeDecodeError,则pd.csv('a.csv', engine='python'),再把多出来的一列删掉1.删除列df.drop([列名], axis=1)2.删除行df.drop([], axis=0)3.排序对其中某几列排序,升序:df.sort_values(by=[..., ..., ...,], ascending...

2018-04-30 12:37:53 2407

原创 VaR(value at risk)在险价值

VaR,即Value at Risk,它是一种定量衡量风险的指标。在险价值是指在一定概率下,某种投资组合在某段时间 内的最大损失。VaR的方法有:历史模拟方法,正态方法,蒙特卡洛方法,压力测试法。VaR方法可以有效测算出金融市场正常波动下资产组合的市场风险,但金融市场极端事件时有发生,市场价格分布具有明显的肥尾效应,这个时候用VaR方法就会有比较大的误差,因此,需要用一些方法配合使用,效果更佳,因...

2018-04-09 15:35:40 27000

原创 金融统计的基本概念

最大回撤最大回撤是指在选定周期内任意时点往后推,产品净值走到最低点时的收益率回撤幅度的最大值,即金融产品在买入周期内的最糟糕的情况。风险金风险金,又称为保证金,期货保证金包括结算保证金和交易保证金,结算保证金是指会员按会员结算标准缴纳的用于结算的保证金。交易保证金是客户因持有期货合约而需要缴纳的保证金,交易保证金分为初始保证金和追加保证金。对数收益率r = ln(pt/pt-1)它的经济学意义是价...

2018-04-09 10:58:21 660

原创 集成算法

集成算法是指利用多个分类器的结果,增强模型的泛化能力和健壮性。集成方法常分为两类:averging methods:平均法的原则是: 独立的构建几个学习器,然后平均他们的预测。通常,组合的学习器要比任何一个单个的学习器要好,因为它降低了方差。                                                                               ...

2018-04-05 13:59:43 268

原创 交叉验证之k折交叉验证

什么是交叉验证,交叉验证是指把数据集分组,分为测试集和训练集,训练集用于训练模型,测试集用于测试模型。k折交叉验证是指:k 折交叉验证通过对 k 个不同分组训练的结果进行平均来减少方差,因此模型的性能对数据的划分就不那么敏感。第一步,不重复抽样将原始数据随机分为 k 份。第二步,每一次挑选其中 1 份作为测试集,剩余 k-1 份作为训练集用于模型训练。第三步,重复第二步 k 次,这样每个子集都有一...

2018-04-03 17:19:34 4139 2

转载 朴素贝叶斯(naive bayes)

朴素贝叶斯是经典的机器学习算法之一,也是为数不多的基于概率论的分类算法。朴素贝叶斯多用于文本分类,比如垃圾邮件过滤。1.算法思想——基于概率的预测逻辑回归通过拟合曲线(或者学习超平面)实现分类,决策树通过寻找最佳划分特征进而学习样本路径实现分类,支持向量机通过寻找分类超平面进而最大化类别间隔实现分类。相比之下,朴素贝叶斯独辟蹊径,通过考虑特征概率来预测分类。举个可能不太恰当的例子:眼前有100个人...

2018-03-31 15:06:48 400

原创 假设检验方法

t检验:    t检验是由t分布来推论差异的概率,主要是在样本量比较小,并且总体方差未知的时候可以用,用于比较独立样本间均值的差异。t检验分为单总体检验和双总体检验。卡方检验:卡方检验是检验样本点偏离理论点的偏离程度,卡方值越大,越不符合,用于多个率和多个构成比比较的卡方检验,类别型变量对类别型变量一般用卡方检验k-s检验:    k-s检验是一种非参数方法,他用样本值与标准值进行比较,得出统计量...

2018-03-30 18:04:04 478

原创 什么是置换检验

                                            置换检验置换检验又称为Permutation test,它是Fisher于20世纪30年代提出的一种基于大量计算,利用样本数据的全(或随机)排列,进行统计推断的方法,因其对总体分布自由,应用较为广泛,特别适用于总体分布未知的小样本资料,以及某些难以用常规方法分析资料的假设检验问题。在具体使用上它和Bootstr...

2018-03-30 18:01:28 11778

原创 独热编码与标签编码

最近在看机器学习,遇到了两种编码形式,OneHotEncoder(独热编码)和LabelEncoder(标签编码),感觉既然都是为了给离散型变量编码,为什么要有两种,既然有两种,那平时该用哪一种。先说结论:OneHotEncoder更常用,LabelEncoder目前应用场景不多以下是解释:用OneHotEncoder是因为:目前大部分算法都是基于向量空间(欧式空间)中的度量来进行计算的,为了使非...

2018-03-18 14:36:12 5961

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除