杨旭东的专栏

坚持学习和分享

排序:
默认
按更新时间
按访问量

Hive 分段采样

需求 从某Hive Table中按照某字段的值的排名(rank)分成N组,第1组为排名前 1/N的内容,第2组为排名前1/N ~ 2/N的内容,…,依次类推。然后每组内部随着采样M条记录。 案例 某搜索引擎的搜索日志中,按照每日搜索次数降序排列搜索关键词(query),按照排名分成10组,第...

2018-06-11 17:04:35

阅读数:105

评论数:0

GBDT算法的特征重要度计算

基于树的集成算法还有一个很好的特性,就是模型训练结束后可以输出模型所使用的特征的相对重要度,便于我们选择特征,理解哪些因素是对预测有关键影响,这在某些领域(如生物信息学、神经系统科学等)特别重要。本文主要介绍基于树的集成算法如何计算各特征的相对重要度。

2016-12-27 21:22:59

阅读数:11577

评论数:0

GBDT算法原理深入解析

本文对GBDT算法原理进行介绍,从机器学习的关键元素出发,一步一步推导出GBDT算法背后的理论基础,读者可以从这个过程中了解到GBDT算法的来龙去脉。对于该算法的工程实现,本文也有较好的指导意义,实际上对机器学习关键概念元素的区分对应了软件工程中的“开放封闭原则”的思想,基于此思想的实现将会具有很...

2016-12-25 20:34:46

阅读数:15406

评论数:20

支持中文的基于词为基本粒度的前缀树(prefix trie)python实现

Trie树,也叫字典树、前缀树。可用于”predictive text”和”autocompletion”,亦可用于统计词频(边插入Trie树边更新或添加词频)。 在计算机科学中,trie,又称前缀树或字典树,是一种有序树,用于保存关联数组,其中的键通常是字符串。与二叉查找树不同,键不是直接保存...

2014-10-28 13:35:11

阅读数:2546

评论数:0

机器学习完整过程案例分布解析,python代码解析

所谓学习问题,是指观察由n个样本组成的集合,并根据这些数据来预测未知数据的性质。 学习任务(一个二分类问题): 区分一个普通的互联网检索Query是否具有某个垂直领域的意图。假设现在有一个O2O领域的垂直搜索引擎,专门为用户提供团购、优惠券的检索;同时存在一个通用的搜索引擎,比如百度,...

2014-05-24 21:34:09

阅读数:3089

评论数:0

用hadoop实现SimRank++算法(1)----权值转移矩阵的计算

本文主要针对广告检索领域的查询重写应用,根据查询-广告点击二部图,在MapReduce框架上实现SimRank++算法,关于SimRank++算法的背景和原理请参看前一篇文章《基于MapReduce的SimRank++算法研究与实现》。 SimRank++的矩阵形式的计算公式为: 算法...

2014-05-01 02:26:53

阅读数:3516

评论数:2

基于MapReduce的SimRank++算法研究与实现

一、算法应用背景 计算广告学(Computational Advertising)是一门广告营销科学,以追求广告投放的收益最大化为目标,重点解决用户与广告匹配的相关性和广告的竞价模型问题,涉及到自然语言处理、数据挖掘以及竞价营销、创意设计等诸多学科的融合。计算广告是根据给定的用户和网页内...

2014-04-30 14:14:28

阅读数:3976

评论数:2

UTF-8编码的字符串拆分成单字、获取UTF-8字符串的字符个数的代码及原理(c++实现)

一、字符编码简介 1. ASCII码 在计算机内部,所有的信息最终都表示为一个二进制的字符串。每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种状态,这被称为一个字节(byte)。也就是说,一个字节一共可以用来表示256种不同的状态,每一个状态对应一个符号,就是256个...

2014-04-21 18:29:23

阅读数:2562

评论数:7

决策树ID3和C4.5算法Python实现源码

首先推荐李航的《统计机器学习》这本书,这个实现就是按照书上的算法来的。Python 用的是最新的3.3版的,和2.x不兼容,运行的时候需要注意。 ''' Created on 2012-12-18 @author: weisu.yxd ''' class Node:     '''Repr...

2012-12-23 22:48:40

阅读数:8695

评论数:0

用R语言求概率分布_R语言学习笔记5

用R语言求概率分布 R一个很方便的用处是提供了一套完整的统计表集合。函数可以对累积分布函数P(X≤x),概率密度函数,分位函数(对给定的q,求满足P(X≤x) > q的最小x)求值,并根据分布进行模拟。 在R中,根据某种分布生成随机序列的函数如下: 在统计学中,产生随机数据是很...

2012-03-08 16:53:46

阅读数:11773

评论数:1

用R语言分析股票指数变化

用R语言分析股票指数变化 杨旭东(2012-3-6)       今天商学院的一个同学写毕业论文时遇到点麻烦,于是找我帮忙。要求是这样的:已知一段时间内每日的股票开盘和收盘指数,以及若干股票的招股开始日期(发行日)和上市日期,要求这两个日期之间股票指数的变化情况。如下图所示,其中浅绿色的部分是...

2012-03-06 20:59:49

阅读数:5255

评论数:1

R语言学习笔记2——常用数学函数

R语言学习笔记2 ——常用数学函数 杨旭东(2012-3-4)   R语言的数学运算和一些简单的函数整理如下:   向量可以进行那些常规的算术运算,不同长度的向量可以相加,这种情况下最短的向量将被循环使用。 > x > a > x * a [1] 10 2...

2012-03-04 14:51:06

阅读数:10597

评论数:1

常用矩阵计算C语言代码

参考资料:   行列式:http://zh.wikipedia.org/wiki/行列式#.E4.BB.A3.E6.95.B0.E4.BD.99.E5.AD.90.E5.BC.8F   伴随矩阵:http://zh.wikipedia.org/wiki/伴随矩阵   余因子矩阵:http://zh...

2012-03-03 20:57:42

阅读数:4722

评论数:0

R语言学习笔记1——对象的创建

R语言学习笔记1 ——对象的创建 杨旭东(2012-3-3) 从昨天开始学习R语言,主要参考资料是网上下的《R软件中文版教材》。 R既可以说是一种编程语言,又可以说是一套完整的软件套件,包括IDE和各种库。R主要用与统计分析,可以看作是由AT&T贝尔实验室所创的S语言发展出的一种方...

2012-03-03 20:54:21

阅读数:3921

评论数:0

跟我一起写 Makefile

关于makefile的很好的文章http://www.chinaunix.net/jh/23/408225.htmlhttp://bbs.chinaunix.net/viewthread.php?tid=408225

2011-07-15 14:39:52

阅读数:428

评论数:0

GCC 命令行详解

作者: www.linuxfans.org mozilla1。gcc包含的c/c++编译器gcc,cc,c++,g++,gcc和cc是一样的,c++和g++是一样的,(没有看太明白前面这半句是什么意思:))一般c程序就用gcc编译,c++程序就用g++编译2。gcc的基本用法gc

2011-07-15 12:40:01

阅读数:377

评论数:0

淘宝面经2011

淘宝面经2011-6-23 淘宝来我们学校招实习生,笔试是在本周二。考试题目还是有点难度的,前面的选择和填空还是比较基础的。后面三道大题目,第一道是一个智力题:问有没有一种可能把四颗树种成两两之间间距相等,如果有怎么种法?我笔试过后才想起来其实这道题我曾经在网上看过,可是当时就是没想起来。当时我还...

2011-06-25 20:00:00

阅读数:813

评论数:0

世上最经典的25句话

 1、记住该记住的,忘记该忘记的。改变能改变的,接受不能接受的。 2、能冲刷一切的除了眼泪,就是时间,以时间来推移感情,时间越长,冲突越淡,仿佛不断稀释的茶。 3、怨言是上天得于人类最大的供物,也是人类祷告中最真诚的部分。 4、智慧的代价是矛盾,这是人生对人生观开的玩笑。 5、世上的姑娘总以为自己...

2008-10-09 20:24:00

阅读数:505

评论数:0

熬夜也要有技巧

熬夜也要有技巧,才能依然身体硬朗,否则,铁打的身体,也受不了如此的日夜操劳呢~因此,想要熬夜的您,千万记住:1:不要吃泡面来填饱肚子,以免火气太大,最好尽量以水果、土司、面包、清粥小菜来充饥。2:开始熬夜前,来一颗维他命B群营养丸,维他命B能够解除疲劳,增强人体免疫力。3:提神饮料,最好以绿茶为主...

2008-10-09 20:17:00

阅读数:537

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭