机器学习
闲云野鹤~~~
这个作者很懒,什么都没留下…
展开
-
聚类分析的距离计算
聚类分析中如何度量两个对象之间的相似性呢?一般有两种方法,一种是对所有对象作特征投影,另一种则是距离计算。前者主要从直观的图像上反应对象之间的相似度关系,而后者则是通过衡量对象之间的差异度来反应对象之间的相似度关系。 如图(1)所示:假设X坐标轴为时间,Y坐标轴为繁殖率,则可以看出三种不同的物种在不同时间段的繁殖情况,由于分别在10,40,80三个数值附近,因此根据繁殖率...转载 2019-03-20 18:16:05 · 12218 阅读 · 0 评论 -
数据规范化的方法
数据挖掘之数据规范化 数据规范化处理是数据挖掘的一项基本操作。现实中,数据中不同特征的量纲可能不一致,数值间的差别可能很大,不进行处理可能会影响到数据分析的结果,因此,需要对数据按照一定比例进行缩放,使之落在一个特定的区域,便于进行综合分析。特别是基于距离的挖掘方法,在建模前一定要对数据进行规范化处理,如SVM,KNN,K-means,聚类等方法数据规范化处理处理主要有以下三种...原创 2019-04-22 18:56:38 · 4291 阅读 · 0 评论 -
机器学习面试题
数据库中的主键、索引和外键(数据分析岗经常问)决策树ID3和C4.5的差别?各自优点?Boost算法CART(回归树用平方误差最小化准则,分类树用基尼指数最小化准则)GBDT与随机森林算法的原理以及区别。优化算法中常遇到的KKT条件?作用是?最近邻算法KNN(分类与回归)L1和L2函数?L1和L2正则项的比较,如何解决 L1 求导困难?L1正则为何可把系数压缩成0,说明坐标下降法的...转载 2019-04-16 16:32:19 · 302 阅读 · 0 评论 -
分类算法常用的评价指标
对于分类算法,常用的评价指标有:(1)Precision(2)Recall(3)F-score(4)Accuracy(5)ROC(6)AUCps:不建议翻译成中文,尤其是Precision和Accuracy,容易引起歧义。1.混淆矩阵混淆矩阵是监督学习中的一种可视化工具,主要用于比较分类结果和实例的真实信息。矩阵中的每一行代表实例的预测类别,每一列代表实例的真实...原创 2019-04-16 15:35:25 · 982 阅读 · 0 评论 -
过拟合的定义、产生原因以及解决方法
定义定义:给定一个假设空间H,一个假设h属于H,如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小,但在整个实例分布上h’比h的错误率小,那么就说假设h过度拟合训练数据。 ———《Machine Learning》Tom M.Mitchell出现过拟合的原因1. 训练集的数量级和模型的复杂度不匹配。训练集的数量级要小于模型的复杂度;2. 训练集和测试集特征分布不一致...转载 2019-04-16 11:36:26 · 2190 阅读 · 0 评论 -
R语言缺失值判断以及处理
#####缺失值判断以及处理######举例1:向量类型判断缺失值is.na和缺失值的填补which(x<-c(1,2,3,NA))is.na(x) #返回一个逻辑向量,TRUE为缺失值,FALSE为非缺失值table(is.na(x)) #统计分类个数sum(x) #当向量存在缺失值的时候统计结果也是缺失值sum(x,na.rm = TRUE) #很多函数里...原创 2019-04-03 11:56:13 · 10341 阅读 · 1 评论 -
数据缺失机制以及缺失值处理方式
转自:计量经济圈在对缺失数据进行处理前,了解数据缺失的机制和形式是十分必要的。将数据集中不含缺失值的变量(属性)称为完全变量,数据集中含有缺失值的变量称为不完全变量,Little和Rubin定义了以下三种不同的数据缺失机制:1.完全随机缺失(Missing Completely at Random, MCAR)。数据的缺失与不完全变量以及完全变量都是无关的。2.随机缺失(Missing...转载 2019-04-03 09:13:26 · 31263 阅读 · 0 评论 -
CTR预估
1.指标广告点击率预估是程序化广告交易框架的非常重要的组件,点击率预估主要有两个层次的指标:1.排序指标。排序指标是最基本的指标,它决定了我们有没有能力把最合适的广告找出来去呈现给最合适的用户。这个是变现的基础,从技术上,我们用AUC来度量。2.数值指标。数值指标是进一步的指标,是竞价环节进一步优化的基础,一般DSP比较看中这个指标。如果我们对CTR普遍低估,我们出价会相对保守,从而使得...转载 2019-03-28 15:48:57 · 302 阅读 · 0 评论 -
R语言中混合线性模型的实现以及参数解析
前言为什么要用混合线性模型:比如测量了不同收入水平的人群的收入和幸福感,但每个群体内收入水平是不同的,幸福感也不同,两者之间的关系也是不同的, 如果直接用一般线性模型,会造成错误的结论,这个时候要考察的是可以推广到不同收入群体的收入和幸福感之间的关系 (即考察的关系不仅可以应用于当前的收入群体,还可以应用到其他的群体)。这时候需要用到混合线性模型(或者层次线性模型)。RR中混合线性模型...转载 2019-04-10 20:09:39 · 49534 阅读 · 16 评论 -
机器学习算法推导一--logistics回归
本文主要讲解分类问题中的逻辑回归。逻辑回归是一个二分类问题。原文:https://www.cnblogs.com/lxs0731/p/8573044.html二分类问题 二分类问题是指预测的y值只有两个取值(0或1),二分类问题可以扩展到多分类问题。例如:我们要做一个垃圾邮件过滤系统,是邮件的特征,预测的y值就是邮件的类别,是垃圾邮件还是正常邮件。对于类别我们通常称为正类(pos...转载 2019-03-13 19:02:19 · 270 阅读 · 0 评论 -
机器学习算法推导一----logistics回归
Logistic 回归数学公式推导Logistic回归不仅可以进行二分类问题的解决,也可以解决多分类问题,本文只讨论二分类问题。它的基本思想是利用一条直线将平面上的点分为两个部分,即两个类别,要解决的问题就是如何拟合出这条直线,这个拟合的过程就称之为“回归”。2.logistics算法推导2.1.几率函数与logit函数假设一个事件发生的概率是p,不发生的概率就是1-...转载 2019-03-13 17:36:59 · 314 阅读 · 0 评论 -
Griddle 框架--面向商品推荐的级联框架
前言当我们讨论推荐系统的时候, 我们一般是说广告推荐. 对于广告推荐, 业界最领先的架构是采用两层架构. 使用一个双塔结构做召回, 再用一个 FNN 模型做排序.但是在业界广告推荐并不是推荐系统的全部, 还有一类非常重要的推荐系统是商品推荐. 所谓的商品推荐, 是指为互联网产品的内容和商品做展示推荐. 这类推荐对比广告推荐, 有个几个特点. 在产品形态上会更多变, 在目标导向上会考虑用...转载 2019-06-19 11:48:11 · 515 阅读 · 0 评论