倔强的咸鱼_wp-CSDN博客

原创精确率召回率 RoC曲线 PR曲线

1 TP, TN, FP, FN的概念图如下所示，里面绿色的半圆就是TP(True Positives), 红色的半圆就是FP(False Positives), 左边的灰色长方形（不包括绿色半圆），就是FN（False Negatives）。右边的浅灰色长方形（不包括红色半圆），就是TN(True Negatives)。这个绿色和红色组成的圆内代表我们分类得到模型结果认为是正...

2018-05-11 11:39:03 2700

原创交叉验证（Cross Validation）与网格搜索（Grid Search）的原理及实证分析

1.背景在机器学习算法中，当数据量不充分时，需要对数据进行重复使用，就出现了交叉验证方法（Cross Validation）.交叉验证顾名思义就是重复使用数据，把数据分为训练集（Trading Set）、验证集（Validation Set）、测试集（Test Set），每次随机选出n组数据，用训练集训练出n个模型，测试集对n个模型进行评价，选出最终模型。2.方法（1）简单交叉验证 ...

2018-05-09 17:25:09 9289

原创梯度下降法小结

1.背景：在机器学习中，对于无约束条件的优化问题，一般有两种方法，梯度下降法和最小二乘法，而梯度下降法是目前最常用的方法。2.梯度的概念：梯度是指在多元函数中，对各个解释变量求偏导数，再由这些偏导数组成的向量，例如：函数f(x,y,z)，它的梯度就是(∂f/∂x, ∂f/∂y，∂f/∂z)T，简称grad f(x,y,z)或者▽f(x,y,z)3.梯度的目的和意义：求解梯度...

2018-05-08 16:43:34 1996

0.读取文件pd.csv('a.csv'),如果出现UnicodeDecodeError,则pd.csv('a.csv', engine='python'),再把多出来的一列删掉1.删除列df.drop([列名], axis=1)2.删除行df.drop([], axis=0)3.排序对其中某几列排序，升序：df.sort_values(by=[..., ..., ...,], ascending...

2018-04-30 12:37:53 2434

原创 VaR（value at risk）在险价值

VaR，即Value at Risk,它是一种定量衡量风险的指标。在险价值是指在一定概率下，某种投资组合在某段时间内的最大损失。VaR的方法有：历史模拟方法，正态方法，蒙特卡洛方法，压力测试法。VaR方法可以有效测算出金融市场正常波动下资产组合的市场风险，但金融市场极端事件时有发生，市场价格分布具有明显的肥尾效应，这个时候用VaR方法就会有比较大的误差，因此，需要用一些方法配合使用，效果更佳，因...

2018-04-09 15:35:40 27099

原创金融统计的基本概念

最大回撤最大回撤是指在选定周期内任意时点往后推，产品净值走到最低点时的收益率回撤幅度的最大值，即金融产品在买入周期内的最糟糕的情况。风险金风险金，又称为保证金，期货保证金包括结算保证金和交易保证金，结算保证金是指会员按会员结算标准缴纳的用于结算的保证金。交易保证金是客户因持有期货合约而需要缴纳的保证金，交易保证金分为初始保证金和追加保证金。对数收益率r = ln(pt/pt-1)它的经济学意义是价...

2018-04-09 10:58:21 692

原创集成算法

集成算法是指利用多个分类器的结果，增强模型的泛化能力和健壮性。集成方法常分为两类：averging methods：平均法的原则是：独立的构建几个学习器，然后平均他们的预测。通常，组合的学习器要比任何一个单个的学习器要好，因为它降低了方差。 ...

2018-04-05 13:59:43 289

原创交叉验证之k折交叉验证

什么是交叉验证，交叉验证是指把数据集分组，分为测试集和训练集，训练集用于训练模型，测试集用于测试模型。k折交叉验证是指：k 折交叉验证通过对 k 个不同分组训练的结果进行平均来减少方差，因此模型的性能对数据的划分就不那么敏感。第一步，不重复抽样将原始数据随机分为 k 份。第二步，每一次挑选其中 1 份作为测试集，剩余 k-1 份作为训练集用于模型训练。第三步，重复第二步 k 次，这样每个子集都有一...

2018-04-03 17:19:34 4213 2

转载朴素贝叶斯（naive bayes）

朴素贝叶斯是经典的机器学习算法之一，也是为数不多的基于概率论的分类算法。朴素贝叶斯多用于文本分类，比如垃圾邮件过滤。1.算法思想——基于概率的预测逻辑回归通过拟合曲线（或者学习超平面）实现分类，决策树通过寻找最佳划分特征进而学习样本路径实现分类，支持向量机通过寻找分类超平面进而最大化类别间隔实现分类。相比之下，朴素贝叶斯独辟蹊径，通过考虑特征概率来预测分类。举个可能不太恰当的例子：眼前有100个人...

2018-03-31 15:06:48 427

原创假设检验方法

t检验： t检验是由t分布来推论差异的概率，主要是在样本量比较小，并且总体方差未知的时候可以用，用于比较独立样本间均值的差异。t检验分为单总体检验和双总体检验。卡方检验：卡方检验是检验样本点偏离理论点的偏离程度，卡方值越大，越不符合，用于多个率和多个构成比比较的卡方检验，类别型变量对类别型变量一般用卡方检验k-s检验： k-s检验是一种非参数方法，他用样本值与标准值进行比较，得出统计量...

2018-03-30 18:04:04 514

原创什么是置换检验

置换检验置换检验又称为Permutation test,它是Fisher于20世纪30年代提出的一种基于大量计算，利用样本数据的全（或随机）排列，进行统计推断的方法，因其对总体分布自由，应用较为广泛，特别适用于总体分布未知的小样本资料，以及某些难以用常规方法分析资料的假设检验问题。在具体使用上它和Bootstr...

2018-03-30 18:01:28 11919

原创独热编码与标签编码

最近在看机器学习，遇到了两种编码形式，OneHotEncoder（独热编码）和LabelEncoder（标签编码），感觉既然都是为了给离散型变量编码，为什么要有两种，既然有两种，那平时该用哪一种。先说结论：OneHotEncoder更常用，LabelEncoder目前应用场景不多以下是解释：用OneHotEncoder是因为：目前大部分算法都是基于向量空间（欧式空间）中的度量来进行计算的，为了使非...

2018-03-18 14:36:12 5998

wp_python的博客