自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

杨旭东的专栏

坚持学习和分享

原创 Hive 分段采样

需求从某Hive Table中按照某字段的值的排名(rank)分成N组,第1组为排名前 1/N的内容,第2组为排名前1/N ~ 2/N的内容,…,依次类推。然后每组内部随着采样M条记录。案例某搜索引擎的搜索日志中,按照每日搜索次数降序排列搜索关键词(query),按照排名分成10组,第1组为搜索次数排名前10%的记录;第2组为搜索次数排名前10%~20%之间的记录;第3组为搜索次数排名...

2018-06-11 17:04:35 2904

原创 GBDT算法的特征重要度计算

基于树的集成算法还有一个很好的特性,就是模型训练结束后可以输出模型所使用的特征的相对重要度,便于我们选择特征,理解哪些因素是对预测有关键影响,这在某些领域(如生物信息学、神经系统科学等)特别重要。本文主要介绍基于树的集成算法如何计算各特征的相对重要度。

2016-12-27 21:22:59 27893 3

原创 GBDT算法原理深入解析

本文对GBDT算法原理进行介绍,从机器学习的关键元素出发,一步一步推导出GBDT算法背后的理论基础,读者可以从这个过程中了解到GBDT算法的来龙去脉。对于该算法的工程实现,本文也有较好的指导意义,实际上对机器学习关键概念元素的区分对应了软件工程中的“开放封闭原则”的思想,基于此思想的实现将会具有很好的模块独立性和扩展性。

2016-12-25 20:34:46 40996 35

原创 支持中文的基于词为基本粒度的前缀树(prefix trie)python实现

Trie树,也叫字典树、前缀树。可用于”predictive text”和”autocompletion”,亦可用于统计词频(边插入Trie树边更新或添加词频)。在计算机科学中,trie,又称前缀树或字典树,是一种有序树,用于保存关联数组,其中的键通常是字符串。与二叉查找树不同,键不是直接保存在节点中,而是由节点在树中的位置决定。一个节点的所有子孙都有相同的前缀,也就是这个节点对应的字符串

2014-10-28 13:35:11 3537

原创 机器学习完整过程案例分布解析,python代码解析

所谓学习问题,是指观察由n个样本组成的集合,并根据这些数据来预测未知数据的性质。学习任务(一个二分类问题):区分一个普通的互联网检索Query是否具有某个垂直领域的意图。假设现在有一个O2O领域的垂直搜索引擎,专门为用户提供团购、优惠券的检索;同时存在一个通用的搜索引擎,比如百度,通用搜索引擎希望能够识别出一个Query是否具有O2O检索意图,如果有则调用O2O垂直搜索引擎,获取结

2014-05-24 21:34:09 3505

原创 用hadoop实现SimRank++算法(1)----权值转移矩阵的计算

本文主要针对广告检索领域的查询重写应用,根据查询-广告点击二部图,在MapReduce框架上实现SimRank++算法,关于SimRank++算法的背景和原理请参看前一篇文章《基于MapReduce的SimRank++算法研究与实现》。SimRank++的矩阵形式的计算公式为:算法主要步骤如下:Step1: 计算权值矩阵,并获取最大Query编号和最大广告编号;Step2:

2014-05-01 02:26:53 4514 3

原创 基于MapReduce的SimRank++算法研究与实现

一、算法应用背景计算广告学(Computational Advertising)是一门广告营销科学,以追求广告投放的收益最大化为目标,重点解决用户与广告匹配的相关性和广告的竞价模型问题,涉及到自然语言处理、数据挖掘以及竞价营销、创意设计等诸多学科的融合。计算广告是根据给定的用户和网页内容,通过计算得到与之最匹配的广告并进行精准定向投放的一种广告投放机制,其目的是为用户提供最易于接受的优

2014-04-30 14:14:28 5462 2

原创 UTF-8编码的字符串拆分成单字、获取UTF-8字符串的字符个数的代码及原理(c++实现)

一、字符编码简介1. ASCII码在计算机内部,所有的信息最终都表示为一个二进制的字符串。每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种状态,这被称为一个字节(byte)。也就是说,一个字节一共可以用来表示256种不同的状态,每一个状态对应一个符号,就是256个符号,从0000000到11111111。上个世纪60年代,美国制定了一套字符编码,对英语字符

2014-04-21 18:29:23 3576 1

原创 决策树ID3和C4.5算法Python实现源码

首先推荐李航的《统计机器学习》这本书,这个实现就是按照书上的算法来的。Python 用的是最新的3.3版的,和2.x不兼容,运行的时候需要注意。'''Created on 2012-12-18@author: weisu.yxd'''class Node:    '''Represents a decision tree node.        '

2012-12-23 22:48:40 10663

原创 用R语言求概率分布_R语言学习笔记5

用R语言求概率分布R一个很方便的用处是提供了一套完整的统计表集合。函数可以对累积分布函数P(X≤x),概率密度函数,分位函数(对给定的q,求满足P(X≤x) > q的最小x)求值,并根据分布进行模拟。在R中,根据某种分布生成随机序列的函数如下:在统计学中,产生随机数据是很有用的,R可以产生多种不同分布下的随机数序列。这些分布函数的形式为rfunc(n,p1,p2,...),其中

2012-03-08 16:53:46 17796 1

原创 用R语言分析股票指数变化

用R语言分析股票指数变化杨旭东(2012-3-6)      今天商学院的一个同学写毕业论文时遇到点麻烦,于是找我帮忙。要求是这样的:已知一段时间内每日的股票开盘和收盘指数,以及若干股票的招股开始日期(发行日)和上市日期,要求这两个日期之间股票指数的变化情况。如下图所示,其中浅绿色的部分是我用R语言算出来的。 计算公式如下:指数变化=(上市首日收盘指数-发行日开盘指数)/ 发行日开

2012-03-06 20:59:49 6486 1

原创 R语言学习笔记2——常用数学函数

R语言学习笔记2——常用数学函数杨旭东(2012-3-4) R语言的数学运算和一些简单的函数整理如下: 向量可以进行那些常规的算术运算,不同长度的向量可以相加,这种情况下最短的向量将被循环使用。> x > a > x * a[1] 10 20 30 40> x + a[1] 11 12 13 14> sum(x)        #对x中的元素求和

2012-03-04 14:51:06 16792 1

原创 常用矩阵计算C语言代码

参考资料:  行列式:http://zh.wikipedia.org/wiki/行列式#.E4.BB.A3.E6.95.B0.E4.BD.99.E5.AD.90.E5.BC.8F  伴随矩阵:http://zh.wikipedia.org/wiki/伴随矩阵  余因子矩阵:http://zh.wikipedia.org/wiki/余因子矩阵  逆矩阵:http://zh.wikip

2012-03-03 20:57:42 6727

原创 R语言学习笔记1——对象的创建

R语言学习笔记1——对象的创建杨旭东(2012-3-3)从昨天开始学习R语言,主要参考资料是网上下的《R软件中文版教材》。R既可以说是一种编程语言,又可以说是一套完整的软件套件,包括IDE和各种库。R主要用与统计分析,可以看作是由AT&T贝尔实验室所创的S语言发展出的一种方言。R的安装文件以及安装说明都可以在Comprehensive RArchive Network(CRAN)网

2012-03-03 20:54:21 4676

转载 跟我一起写 Makefile

关于makefile的很好的文章http://www.chinaunix.net/jh/23/408225.htmlhttp://bbs.chinaunix.net/viewthread.php?tid=408225

2011-07-15 14:39:52 490

转载 GCC 命令行详解

作者: www.linuxfans.org mozilla1。gcc包含的c/c++编译器gcc,cc,c++,g++,gcc和cc是一样的,c++和g++是一样的,(没有看太明白前面这半句是什么意思:))一般c程序就用gcc编译,c++程序就用g++编译2。gcc的基本用法gc

2011-07-15 12:40:01 634

原创 淘宝面经2011

淘宝面经2011-6-23 淘宝来我们学校招实习生,笔试是在本周二。考试题目还是有点难度的,前面的选择和填空还是比较基础的。后面三道大题目,第一道是一个智力题:问有没有一种可能把四颗树种成两两之间间距相等,如果有怎么种法?我笔试过后才想起来其实这道题我曾经在网上看过,可是当时就是没想起来。当时我还以为我答对了,后来跟女朋友讨论时才发现自己思维定势了,题目中并没有说四颗树要种在同一水

2011-06-25 20:00:00 920

转载 世上最经典的25句话

 1、记住该记住的,忘记该忘记的。改变能改变的,接受不能接受的。 2、能冲刷一切的除了眼泪,就是时间,以时间来推移感情,时间越长,冲突越淡,仿佛不断稀释的茶。 3、怨言是上天得于人类最大的供物,也是人类祷告中最真诚的部分。 4、智慧的代价是矛盾,这是人生对人生观开的玩笑。 5、世上的姑娘总以为自己是骄傲的公主(少数极丑和极聪明的姑娘例外)。 6、如果敌人让你生气,那说明你还没有胜他的把握。 7、如

2008-10-09 20:24:00 580

转载 熬夜也要有技巧

熬夜也要有技巧,才能依然身体硬朗,否则,铁打的身体,也受不了如此的日夜操劳呢~因此,想要熬夜的您,千万记住:1:不要吃泡面来填饱肚子,以免火气太大,最好尽量以水果、土司、面包、清粥小菜来充饥。2:开始熬夜前,来一颗维他命B群营养丸,维他命B能够解除疲劳,增强人体免疫力。3:提神饮料,最好以绿茶为主,可以提神,又可以消除体内多余的自由基,让您神清气爽;但是肠不好的人,最好改喝枸杞子泡热水的茶,可以解

2008-10-09 20:17:00 689

提示
确定要删除当前文章?
取消 删除