机器学习
文章平均质量分 95
奥卡姆的剃刀
GitHub: https://github.com/LeronQ
展开
-
风控——利用决策树挖掘策略规则
风控,基于决策树自动挖掘策略规则原创 2022-09-04 13:06:58 · 4332 阅读 · 3 评论 -
机器学习模型融合案例
模型融合目标:对于多种调参完成的模型进行模型融合完成对于多种模型的融合,提交融合结果1:内容介绍模型融合大体来说有如下的类型方式:1:简单加权融合:回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean)分类:投票(Voting)综合:排序融合(Rank averaging),log融合2:stacking/blending:构建多层模型,并利用预测结果再拟合预测3:boosting/bagging原创 2021-01-02 13:57:21 · 2649 阅读 · 0 评论 -
标签稀疏类别不平衡问题解决方案总结
1:定义类别不平衡(class-imbalance)是指分类任务中不同类别的训练样例数目差别很大的情况。在现实的分类任务中,我们会经常遇到类别不平衡的问题。一般来说,不平衡样本会导致训练模型侧重样本数目较多的类别,而“轻视”样本数目较少类别,这样模型在测试数据上的泛化能力就会受到影响。比如在金融反欺诈中,欺诈交易的应该是很少部分,绝大部分交易是正常的,这就是一个正常的类别不平衡问题,假设数据集中有99个正例样本,1个负例样本。在不考虑样本不平衡的很多情况下,学习算法会使分类器放弃负例预测,因为把所.原创 2020-12-19 11:48:30 · 4553 阅读 · 2 评论 -
百面机器学习06-概率图模型
01:概率图模型的联合概率分布场景描述概率图模型最为“精彩”的部分就是能够用简洁清晰的图示形式表达概率生成的关系 。而通过概率图还原真概率分布不仅是概率图模型最重要的功能,也是掌握概率图模型最重要的标准 。 本节考查面试者能否根据贝叶斯网络刊马尔可夫网络的概率图还原其联合概率分布知识点:概率图,贝叶斯网络,马尔可夫网络问题1:能否写出图 6.1 ( a )中贝叶斯网络的联合概率分布?分析与解答由图可见,在给定 A 的条件下 B 相 C 是条件独立的,基于条件概率的定义可得P(C∣A,B)=P原创 2020-11-05 20:12:10 · 456 阅读 · 0 评论 -
百面机器学习05-非监督学习
01:K均值聚类支持向量机、逻辑回归、决策树等经典的机器学习算法主要用于分类问题,即根据一些已给定类别的样本,训练某种分类器,使得它能够对类别未知的样本进行分类。与分类问题不同,聚类是在事先并不知道任何样本类别标签的情况下,通过数据之间的内在关系把样本划分为若干类别,使得同类别样本之间的相似度高,不同类别之间的样本相似度低。图 5.1 是一个二维空间中样本聚类的示意图,图 5.1 ( a ) 展示了所有样本在空间中的分布,图 5.1 ( b\mathrm{b}b ) 展示了聚类的结果(不同颜色代表不同类别原创 2020-11-01 13:40:13 · 814 阅读 · 2 评论 -
百面机器学习04-降维
01:PCA最大方差理论在机器学习领域中 ,我们对原始数据进行特征提取,有时会得到 比较高维的特征向量 。 在这些向量所处的高维空间中 , 包含很多的冗余和噪声 。 我们希望通过降维的方式来寻找数据内部的特性 , 从而提升特征表达能力 , 降低训练复杂度 。 主成分分析( Principal Components Analys is, P CA )作为降维中最经典的方法,至今已有 100 多年的历史,属于一种线性、非监督、全局的降维算法,是面试中经常被问到的问题 。知识点:PCA ,线性代数问题:如何原创 2020-10-17 22:41:53 · 464 阅读 · 0 评论 -
百面机器学习03-经典算法
01 支持向量机支持向量机 (Support Vector Machine, SVM)是众多监督学习万法中十分出色的一种,几乎所有讲述经典机器学习万洼的教材都会介绍 。 关于 SVM,流传着一个关于天使与魔鬼的故事 。传说魔鬼和天使玩了一个游戏 , 魔鬼在桌上放了两种颜色的球,如图 3.1 所示 。 魔鬼让天使用一根木棍将它们分开 。 这对天使来说,似乎太容易了 。 天使不假思索地一摆,便完成了任务 2 如图 3.2 所示。魔鬼又加入了更多的球 。 随着球的增多,似乎奇的球不能再被原来的木棍正确分开 ,原创 2020-10-11 12:08:14 · 641 阅读 · 0 评论 -
百面机器学习02-模型评估
1:评估指标的局限性场景描述:在模型评估过程中,分类问题、排序问题、回归问题往往需要使用不同的指标进行评估 。在诸多的评估指标中,大部分指标只能片面地反映模型的一部分性能 。 如果不能合理地运用评估指标 ,不仅不能发现模型本身的闯题,而且会得出错误的结论。下面以 Hulu 的业务为背景 ,假想几个模型评估场景 3 看看大家能否触类旁通,发现模型评估指标的局限性。知识点:准确率( Accuracy ),精确率( Precision ),召回率( Recall ),均万根误差(Root Mean Squa原创 2020-10-07 10:35:07 · 1551 阅读 · 4 评论 -
百面机器学习01-特征工程
1:特征归一化场景描述:为了消除数据特征之间的量纲影响,我们需要对特征进行归一化处理,使得不同指标之间具有可比性。例如,分析一个人的身高和体重对健康的影响,如果使用米(m )和千克(kg)作为单位,那么身高特征会在 1.6 1.8m 的数值范围内,体重特征会在50 100kg 的范围内,分析出来的结果显然会倾向于数值差别比较大的体重特征。想要得到更为准确的结果,就需要进行特征归一化(Normalization)处理,使各指标处于同一数值量级,以便进行分析。问题1:为什么需要对数值类型的特征做 归一化?原创 2020-10-04 22:17:31 · 1415 阅读 · 2 评论 -
机器学习--分类变量编码方法
前言最近在Medium上看到一篇关于分类变量编码的方法概述,记录一下,主要讲述了除了One-Hot encoding 编码外,根据不同应用场景,也许会有更好的选择。one-hot 编码(one-hot encoding)类似于虚拟变量(dummy variables),是一种将分类变量转换为几个二进制列的方法。其中 1 代表某个输入属于该类别。从机器学习的角度来看,one-hot 编码并不是一种良好的分类变量编码方法。因为one-hot 编码增加了大量的维度,要枚举该特征下的所有取值情况。例如,如原创 2020-10-01 14:09:09 · 3131 阅读 · 0 评论 -
论文笔记及Pytorch复现:A Dual-Stage Attention-Based Recurrent Neural Network for Time Series Prediction
论文地址GitHub代码地址论文题目为《基于双阶段注意力机制的循环神经网络》,文章本质上还是基于Seq2Seq的模型,结合了注意力机制实现的时间序列的预测方法,文章的一大亮点是:不仅在解码器的输入阶段引入注意力机制,还在编码器阶段引入注意力机制,编码器的阶段的注意力机制实现了特征选取和把握时序依赖关系的作用。分为两个阶段:第一阶段:使用注意力机制从而能够自适应提取每个时刻的特征,这是本文的最大亮点第二阶段:使用注意力机制选取与之相关的encoder hidden states1:模型架构图原创 2020-08-16 14:27:26 · 6874 阅读 · 16 评论 -
XGBoost--切分点查找算法
1:前言:本篇博客省去了从树模型到GBDT,再到XGBoost的渐进演变逻辑过程和数学推导,主要讲述XGBoost在每轮训练生成新的树模型时,采取的切分点选择算法和相关数学证明。2:背景XGBoost在每轮训练生成新的树模型时,首先计算所有特征在所有切分点分裂前后的Obj_split,然后选取Obj_split最大特征及其切分点作为最优特征和最优切分点。XGBoost提供了多种最优特征和最优切分点的查找算法,统称为切分点查找算法。2.1:精确贪心算法XGBoost在生成新树的过程中国,最原创 2020-05-17 22:35:37 · 2587 阅读 · 1 评论 -
CNN & LSTM & Conv1D+LSTM 同一数据集预测案例分析
1:前言利用CNN、LSTM 和Conv1D+LSTM 分别对同一数据集进行预测分析,并用训练集和测试集比较结果;原创 2020-03-22 15:59:20 · 18975 阅读 · 48 评论 -
LSTM逻辑设计详细解读
1:前言2:目录2.1 RNN的介绍与应用于什么场景2.2 SimpleRNN的缺陷2.2 Standard RNN2.3 LSTM引出三个门控机制的原因和各个门控实现的机制2.4 各个门的激活函数2.5 LSTM实现的详细结构图2.6 参考文献及资料2.1:RNN的介绍与应用于什么场景在传统神经网络模型中,是从输入层到隐含层再到输出层,层与层之间是全连接的,每层之间的节点...原创 2020-03-01 12:32:44 · 5376 阅读 · 1 评论 -
Anaconda中安装python版的XGBoost和LightGBM库
Anaconda中安装python版的XGBoost和LightGBM库XGboost 和LightGBM是目前机器学习中两个非常强大的算法。在之前的电脑上已经安装过着两个算法。最近换了一台新电脑,在重新安装的过程中,好像有点忘记了步骤,好在摸索出结果了,所以重新整理了一下。一方面是给需要的人作为借鉴,另一方面也是作为笔记方便以后查看。安装过程主要分为3步:下载相关**.whl**文件导...原创 2019-01-22 22:16:09 · 2014 阅读 · 3 评论 -
基于逻辑回归的评分卡模型简单概述
评分卡模型1:概述信用评分本质上是模式识别中的一类分类问题,将企业或者个体消费者划分为能够按期还本付息(即“好”客户)和违约(即“坏”)两类。具体做法是根据历史数据中的样本,从已知的数据中找出违约及不违约客户的特征,从而总结出分类的规则,建立数学模型,用于测量价款人的违约风险(或者违约概率),为消费信贷决策提供依据。2:建模的准备2.1:目标变量的准备研究的目标变量为客户是否具有违约行...原创 2019-02-12 10:08:30 · 13533 阅读 · 2 评论 -
(2) 李航《统计学习方法》基于Python实现——感知机
概述感知机(perceptron)是二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和-1两类。感知机对应于输入空间(特征空间)中将实例划分为正负两类的超平面,属于判别模型。感知机学习旨在求出将训练数据进行线性划分的分离超平面,为此,导入基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,求得感知机模型。感知机学习算法分为原始形式和对偶形式,由Rosenblatt...原创 2019-04-17 17:35:56 · 4868 阅读 · 0 评论 -
(3) 李航《统计学习方法》基于Python实现——K近邻法
1:概念k近邻是一种基本分类与回归方法。本文只讨论分类问题中的k近邻法。k近邻法的输入为实例的特征向量,对应于特征空间的点;输出为实例的类别,可以取多类。k近邻法假设给定一个训练数据集,其中的实例类别已定。分类时,对新的实例,根据其k个最近邻的训练实例的类别,通过多数表决等方式进行预测。因此k近邻法不具有显式的学习过程。k近邻法实际上利用训练数据集对特征向量空间进行划分,并作为其分类的“模型”...原创 2019-04-29 11:16:32 · 4532 阅读 · 0 评论 -
(1) 李航《统计学习方法》基于Python实现——最小二乘法正则项
第1章 统计学习方法概论高斯于1823年在误差e1 ,… , en独立同分布的假定下,证明了最小二乘方法的一个最优性质: 在所有无偏的线性估计类中,最小二乘方法是其中方差最小的!无偏估计是用样本统计量来估计总体参数时的一种无偏推断。 估计量的数学期望等于被估计参数的真实值,则称此此估计量为被估计参数的无偏估计,即具有无偏性,是一种用于评价估计量优良性的准则。 无偏估计的意义是:在多次重复下,...原创 2019-04-15 13:03:42 · 5081 阅读 · 0 评论 -
(4) 李航《统计学习方法》基于Python实现——朴素贝叶斯
1:高斯模型下的朴素贝叶斯import numpy as npimport pandas as pdfrom sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_splitfrom collections import Counterimport math# 特征假设是...原创 2019-05-02 13:06:38 · 4517 阅读 · 0 评论 -
(5) 李航《统计学习方法》基于Python实现——决策树
决策树模型决策树是一种基本的分类和回归方法,本文主要讨论用户分类的决策树。决策树模型呈现树桩结构,在分类问题中,它表示基于特征对实例进行分类的过程。它可以认为是if-then的规则的集合也可以认为是定义在特征空间与类空间上的条件概率分布。决策树学习通常包括3个步骤:特征选择,决策树的生成和决策树的修剪。优点:模型具有可读性,解释性较强,分类速度快,准确性高,可以处理连续和种类字段,不需要任...原创 2019-05-05 16:48:55 · 5272 阅读 · 0 评论 -
逻辑回归推导及相关常问问题
1. 逻辑回归模型 逻辑回归也称为对数几率回归,逻辑回归应用了和回归类似的方法来解决问题,但实际上逻辑回归算法是分类算法。其原理和线性回归相似:(1):首先要找到一个合适的假设函数(Hypothesis),常用表示,该函数的输出为判定结果的概率值。构建假设函数的前提是需要对数据有一定的了解,比如是线性或者非线性的数据等。(2):构造一个损失函数(cost function...原创 2018-11-27 19:34:59 · 5959 阅读 · 0 评论