机器学习
文章平均质量分 72
RyanZhengrp
这个作者很懒,什么都没留下…
展开
-
【机器学习-无监督模型部署】pyspark部署无监督模型
背景: 1、自己开发完高斯混合聚类模型,需要发布上线部署,进行线上应用。由于公司每天日活数据有1.8亿,使用单机版的模型预测不现实,一天根本跑不完;于是使用分布式计算框架spark来解决大数据量情况下模型线上预测的问题,使用pyspark来应用。为什么使用pyspark呐,不使用原生的spark(scala编写的应用程序)呐,由于开发模型时的特征工程阶段,有一些特征处理,另外需要高斯混合聚类模型转化为scala代码逻辑实现一遍,工程量有些大,无监督模型目前我司使用的并不多,没有花时间精力在如何将开..原创 2021-02-04 13:52:24 · 697 阅读 · 0 评论 -
【机器学习-模型部署】将已被存储为.ml的模型文件,转化为pmml文件
需求:将已被存储为.ml的模型文件,转化为pmml文件#!/usr/bin/env python#! -*- coding: utf-8 -*-'''@File: create_pmml_file.py@Author: RyanZheng@Email: ryan.zhengrp@gmail.com@Created Time on: 2019-11-11'''####...原创 2019-11-18 18:07:25 · 1269 阅读 · 0 评论 -
机器学习中的标准化/归一化
数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在一些数据比较和评价中常用到。典型的有归一化法,还有比如极值法、标准差法。归一化方法的主要有两种形式:一种是把数变为(0,1)之间的小数,一种是把有量纲表达式变为无量纲表达式。在数字信号处理中是简化计算的有效方式。归一化处理的好处:1 加快梯度下降的求解速度,即提升模型的收敛速度两个特征区间相差非常...转载 2018-11-27 09:17:43 · 305 阅读 · 0 评论 -
离散型特征编码方式:one-hot与哑变量
在机器学习问题中,我们通过训练数据集学习得到的其实就是一组模型的参数,然后通过学习得到的参数确定模型的表示,最后用这个模型再去进行我们后续的预测分类等工作。在模型训练过程中,我们会对训练数据集进行抽象、抽取大量特征,这些特征中有离散型特征也有连续型特征。若此时你使用的模型是简单模型(如LR),那么通常我们会对连续型特征进行离散化操作,然后再对离散的特征,进行one-hot编码或哑变量编码。这样的操...转载 2018-11-21 14:48:35 · 566 阅读 · 0 评论 -
回归预测评估指标
回归预测评估指标标注说明ff表示预测值,yy表示实际值评价指标MAE(Mean Absolute Error) 平均绝对误差 MSE(Mean Square Error) 平均平方差/均方误差是回归任务最常用的性能度量。 RMSE(Root Mean Square Error) 方均根差 缺点:因为它使用的是平均误差,而平均误差...转载 2018-08-24 14:19:34 · 548 阅读 · 0 评论 -
利用随机森林对特征重要性进行评估
前言随机森林是以决策树为基学习器的集成学习算法。随机森林非常简单,易于实现,计算开销也很小,更令人惊奇的是它在分类和回归上表现出了十分惊人的性能,因此,随机森林也被誉为“代表集成学习技术水平的方法”。 本文是对随机森林如何用在特征选择上做一个简单的介绍。随机森林(RF)简介只要了解决策树的算法,那么随机森林是相当容易理解的。随机森林的算法可以用如下几个步骤概括:用有抽样放回的方法...转载 2018-08-24 09:30:53 · 43167 阅读 · 2 评论 -
回归预测评估指标
回归预测评估指标标注说明ff表示预测值,yy表示实际值评价指标MAE(Mean Absolute Error) 平均绝对误差 MAE=1n∑i=1n|fi−yi|MAE=1n∑i=1n|fi−yi| MSE(Mean Square Error) 平均平方差/均方误差是回归任务最常用的性能度量。 MSE=1n∑i=1n(fi−yi)2MSE=1n∑i=...转载 2018-07-21 11:57:37 · 2056 阅读 · 0 评论 -
二分类模型评价指标-KS值
knitr::opts_chunk$set(echo = TRUE,eval=FALSE)11. KS值1.1 概念 KS值越大,表示模型能够将正、负客户区分开的程度越大。 通常来讲,KS>0.2即表示模型有较好的预测准确性。 柯尔莫哥洛夫-斯米尔诺夫检验(Колмогоров-Смирнов检验)基于累计分布函数,用以检验两个经验分布是否不同或一个经验分布与另...转载 2018-07-21 11:45:10 · 3854 阅读 · 0 评论 -
分类模型种类(决策、排序)比较与模型评估体系(ROC/gini/KS/lift)
本笔记源于CDA-DSC课程,由常国珍老师主讲。该训练营第一期为风控主题,培训内容十分紧凑,非常好,推荐:CDA数据科学家训练营 —————————————————————————————————————————— 一、风控建模流程以及分类模型建设 1、建模流程 该图源自课程讲义。主要将建模过程分为了五类。数据准备、变量粗筛、变量清洗、变量细筛、建模...转载 2018-07-21 11:39:22 · 4886 阅读 · 0 评论 -
机器学习-常见的数据预处理
一、背景原始数据存在的几个问题:不一致;重复;含噪声;维度高。1.1 数据挖掘中使用的数据的原则尽可能赋予属性名和属性值明确的含义;去除惟一属性;去除重复性;合理选择关联字段。1.2 常见的数据预处理方法数据清洗:数据清洗的目的不只是要消除错误、冗余和数据噪音,还要能将按不同的、不兼容的规则所得的各种数据集一致起来。数据集成:将多个数据源中的数据合并,并存放到一个一致的数据存储(如数据仓库)中。这...转载 2018-07-07 18:07:17 · 1291 阅读 · 0 评论 -
机器学习里数据预处理及特征工程
机器学习里有一句名言:数据和特征决定了机器学习的上限,而模型和算法的应用只是让我们逼近这个上限。这个说法形象且深刻的提出前期数据处理和特征分析的重要性。这一点从我们往往用整个数据挖掘全流程60%以上的时间和精力去做建模前期的数据处理和特征分析也能看出。那么疑问来了,这超过60%时间和精力我们都用在哪了?本文基于以往的知识储备以及实际的项目经验,我做一个总结。 主要包括三部分,一是获...转载 2018-07-07 18:02:46 · 353 阅读 · 0 评论 -
回归模型中的哑变量
在构建回归模型时,如果自变量X为连续性变量,回归系数β可以解释为:在其他自变量不变的条件下,X每改变一个单位,所引起的因变量Y的平均变化量;如果自变量X为二分类变量,例如是否饮酒(1=是,0=否),则回归系数β可以解释为:其他自变量不变的条件下,X=1(饮酒者)与X=0(不饮酒者)相比,所引起的因变量Y的平均变化量。但是,当自变量X为多分类变量时,例如职业、学历、血型、疾病严重程度等等,此时仅用一...转载 2018-06-06 17:27:24 · 7307 阅读 · 2 评论