- 博客(72)
- 资源 (4)
- 收藏
- 关注
原创 机器学习特征选择之卡方检验与互信息
by wangben @ beijing特征选择的主要目的有两点:1. 减少特征数量提高训练速度,这点对于一些复杂模型来说尤其重要2. 减少noisefeature以提高模型在测试集上的准确性。一些噪音特征会导致模型出现错误的泛化(generalization),从而在测试集中表现较差。另外从模型复杂度的角度来看,特征越多模型的复杂度越高,也就越容易发生o
2016-02-09 16:27:05 21378 2
原创 Spark上如何做分布式AUC计算
by 王犇 20160115AUC是分类模型常用的评价手段,目前的Spark mllib里面evaluation包中所提供的auc方法是拿到了roc曲线中的各个点之后再进行auc的计算,但是实际应用场景中(以逻辑回归为例),我们常常是对每个样本进行打分之后整合样本的label直接进行auc的计算,输入可能是(label, predict_score)这样的形式,mllib中提供的方案就不太适用
2016-01-15 14:54:03 9272 1
原创 机器学习评价方法之NRIG
在工业界,逻辑回归是很常用的模型,一般大家在用逻辑回归做机器学习排序或者广告预估时常用AUC来判断排序的效果,逻辑回归是概率模型,除了排序的指标之外,有时会出现AUC比较好,但是概率拟合较差(很有可能是收敛的不好),在广告GSP(Generalized second-price auction)竞价模式中尤为重要,所以我们还希望验证模型对真实概率的拟合程度,这时就需要其他指标来衡量。最常见
2015-11-17 15:53:06 3015
转载 What is success if you don't know your main goal in life?
from James AltucherI thought I was done with the hard work of being a human being. I sold my first company for $15 million and I knew I was finished with all the hard work. I had achieved a goal.
2014-12-10 15:35:49 1490
翻译 Everything You Wanted to Know About Machine Learning
Everything You Wanted to Know About Machine Learning翻译了理解机器学习的10个重要的观点,加入了自己的理解,这些原则在大部分情况下也许是这样,但是具体问题具体分析才是王道,不加思索的应用只能是一知半解。所以张小龙才说‘我说的都是错的’。 note by 王犇1. How Does Machine Learning Work
2014-06-25 15:37:03 1459
转载 如何删除Amazon (kindle) 云端文件
要求:使用chrome浏览器或者搜狗浏览器的“高速”模式。firefox等浏览器我没有测试过,理论上适用;搜狗的“兼容”模式实测无效(应该是IE内核版本过低,对javascript的支持有问题)。另外如果有人第一次点击书签之后没有出现复选框,请检查是否禁用了网页的javascript脚本。方法:在收藏夹中添加一个新的书签,标题随意起,只要你认得就行;地址栏中粘贴如下代码:javascr
2013-08-25 23:15:20 7781
原创 如何设置kindle推送,如何推送网页到kindle
如何在亚马逊中国使用kindle推送,如何通过kindlemii推送网页到kindle:1. 了解你的kindle账号登陆amazon.cn之后,在amazon.cn的"管理我的Kindle"页面,选择"个人文档设置",或者点击这里在"〖发送至Kindle〗电子邮箱"下可以看到你的Kindle接收地址(用于接收文档的邮箱地址,亚马逊会把发送到该邮箱的邮件附件推送到你的设备)。
2013-08-18 11:47:45 26754 2
原创 主题模型 LDA 源码分享
转载请注明来源:http://blog.csdn.net/yihucha166/article/details/9046835Latent Dirichlet Allocation(LDA)是目前业界最为流行的机器学习方法之一,这里用C++实现了一个as-lda版本,使用了非对称的先验设置,随着主题数的增加,主题分布上比传统模型更加稳定,减少因为主题数量大而导致大量小众主题,参考文献《Reth
2013-06-07 13:51:05 7159 3
原创 gbrt(gbdt)源码分享
GBDT(Gradient Boost Decision Tree) 目前是工业界最为流行的机器学习工具之一,我最近依据一些开源实现,写了一个精简版的gbrt,也就是(Gradient Boost Regression Tree),因为在我们的应用中,基本上都是在解决rank的问题,一般只需要regression就可以了。这个版本主要的特点就是代码逻辑简单,并且使用了tbb的并行库对于多核
2013-01-22 14:54:42 8389 9
原创 weak-and算法原理演示(wand)
推荐一个在信息检索中用到的weak-and算法,这个算法在广告系统中有成熟的应用。 简单来说,一般我们在计算文本相关性的时候,会通过倒排索引的方式进行查询,通过倒排索引已经要比全量遍历节约大量时间,但是有时候仍然很慢。原因是很多时候我们其实只是想要top n个结果,一些结果明显较差的也进行了复杂的相关性计算,而weak-and算法通过计算每个词的贡献上限来估计文档的相关性上限,从而建立
2013-01-14 11:38:28 8074 2
原创 Protocal Buffer 2.3.0使用注意事项
备忘 1. string默认不支持gbk,用bytes类型代替,传递二进制2. 非string类型的序列化,反序列化: bool SerializeToArray(void * buf, int & len)//len长度字段 需要传入可用buf大小,若太小 会失败 { bool bret = pb_obj.SerializeToArray(buf,
2011-11-22 16:38:30 1669
翻译 Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍 七
WangBen 20110916 Beijing Advantages, Disadvantages, and Applications of LSALSA的优势、劣势以及应用Latent SemanticAnalysis has many nice proper
2011-09-20 21:18:37 3115
翻译 Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍 六
WangBen 20110916 Beijing Part 4 - Clustering by Color用颜色聚类We can also turnthe numbers into colors. For instance, here is a color
2011-09-20 21:15:29 2780
翻译 Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍 五
WangBen 20110916 Beijing Part 3 - Usingthe Singular Value Decomposition使用奇异值分解Oncewe have built our (words by titles) matrix, we c
2011-09-20 21:03:34 3881 3
翻译 Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍 四
WangBen 20110916 Beijing Part 2 - Modify the Counts with TFIDF计算TFIDF替代简单计数In sophisticated Latent Semantic Analysis systems, th
2011-09-20 20:55:27 4047
翻译 Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍 三
WangBen 20110916 Beijing Part 1 - Creating the Count Matrix第一部分 - 创建计数矩阵The first step in Latent Semantic Analysis is to create thew
2011-09-20 20:48:38 6761
转载 hadoop streaming 编程
转自:http://dongxicheng.org/mapreduce/hadoop-streaming-programming/ 注:0.21.0中 generic command options 中的的参数都需要在streaming options的前面才不会报错
2011-09-20 20:23:25 1864
转载 sqrt引发的血案 牛顿法的应用
转自:http://www.cnblogs.com/pkuoliver/archive/2010/10/06/sotry-about-sqrt.html一个Sqrt函数引发的血案2010-10-06 17:13 by 码农1946, 29565 visits, 收藏,
2011-09-20 20:15:45 1357
转载 MapReduce 中文版论文
转自http://peopleyun.com/?p=890MapReduce 中文版论文18Aug之前已经给贴了GFS和BigTable的论文,今天就把Google三大利器之一MapReduce中文版论文也发一下,原文地址,中文版原址,并在这里谢谢译者Al
2011-09-18 15:46:41 1510
原创 ubuntu8.10更新源 以及scipy numpy的安装
ubuntu 8.10 比较老了 更新源也比较难找目前好用的是cn99:deb http://ubuntu.cn99.com/ubuntu/ hardy main restricted universe multiversedeb http://ubuntu.cn99
2011-09-18 11:44:52 2043
翻译 Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍 二
WangBen 20110916 Beijing A Small Example一个例子As a small example, I searched for books using the word “investing” at Amazon.com and t
2011-09-16 20:07:15 3654
翻译 Latent Semantic Analysis (LSA) Tutorial 潜语义分析LSA介绍 一
Latent Semantic Analysis (LSA) Tutorial译:http://www.puffinwarellc.com/index.php/news-and-articles/articles/33.htmlWangBen 2011-09-16 bei
2011-09-16 20:03:48 9074 1
原创 list sort方法调研
stl中的list 是双向链表结构,最近用到其中的sort方法,文档中有这么两段:Sorts *this according tooperator. The sort is stable, that is, the relative order of equivalent elements is preserved. All iterators remain valid and con
2011-06-14 15:57:00 2318
原创 通过函数指针调用对象内部方法
知道这个就可以实现 c++中的closure(http://www.cppblog.com/sleepwom/archive/2011/04/06/143489.html) #include using namespace std;class MyClass { public: void PrintName() {
2011-06-09 11:34:00 869
转载 How to be a Star Engineer
<br />元智资工实验室的一篇翻译文章 [How to be a Star Engineer]<br /><br />很有启发的文章,与大家分享。 <br />How to be a Star Engineer<br />Robert E. Kelley, Carnegie Mellon University<br /><br />Robert E. Kelley, "How to be a star engineer," IEEE Spectrum, pp. 51-58, Oct. 1999.<br /
2010-12-13 13:02:00 903
原创 链接装载与库《程序员的自我修养》 之 全局符号冲突问题
<br /><br />链接装载与库《程序员的自我修养》之全局符号冲突问题<br /> 1.由强符号和弱符号引起的全局符号冲突<br />强符号:编译器默认函数和初始化了的全局变量<br />弱符号:未初始化的全局变量为弱符号(也可以通过gcc的__attribute__((weak))指定)<br /> <br />冲突的例子:如果我们在目标文件A和目标文件B都定义了一个全局整形变量g_variable,并将它们都初始化,这样在链接时链接器就会报multipledefinition的错误,这种错误就是
2010-11-28 17:35:00 1333
转载 mutable 关键字
<br />mutable 可以用来指出,即使结构或者类变量为const,其某个成员也可以被修改<br /> 在c++的类中, 如果一个函数被const 修饰,那么它将无法修改其成员变量的,但是如果这个成员变量是被mutable修饰的话,则可以修改。 <br />例如 <br />struct data{ char name[30]; mutable int accesses; .... }; const data veep = {"david";,0,
2010-09-11 12:13:00 603
转载 讲讲volatile的作用
转载,原文地址是:http://blog.21ic.com/user1/2949/archives/2007/35599.html<br /><br />一个定义为volatile的变量是说这变量可能会被意想不到地改变,这样,编译器就不会去假设这个变量的值了。精确地说就是,优化器在用到这个变量时必须每次都小心地重新读取这个变量的值,而不是使用保存在寄存器里的备份。下面是volatile变量的几个例子: <br /> 1). 并行设备的硬件寄存器(如:状态寄存器) <br /> 2
2010-09-11 12:05:00 446
原创 linux下ffmpeg 手机视频转换总结
ffmpeg版本:0.5.1 flv -> mp4 ->3gp #截图:./ffmpeg -i 视频文件 -y -ss 截图时间 -vframes 1 -f image2 -s 128x96 目标文件名;#生成预览版:./ffmpeg -i out.3gp -ss 00:00:00 -t 00:00:10 -s qcif -acodec copy -vcodec copy -y
2010-04-28 20:09:00 1984
原创 perl 点点滴滴 当然代替awk和sed
perl语言的优势在于语法灵活,正则表达式强大。它的缺点其实也在于语法过于灵活,正则强大而复杂。但是用来文本处理工具还是很不错的工具。最近翻了一下《精通正则表达式》,看到几个强大而实用的正则表达式用法:1. 利用 正则中的 环视 操作符来为数字添加分割逗号,例如:35,738,480$num = 35738480;$num =~ s!(?#这个式子主要可以用在统计邮
2010-04-28 20:00:00 2335
原创 URL的相对路径问题
对于url的相对路径问题一直都没太仔细弄清楚,这次好好的查了一下:在rfc1630中有这样一段话:The rules for the use of a partial name relative to the URI of the context are: If the scheme parts are different, the whole absolute URI must
2009-07-28 21:57:00 6545 1
转载 Linux查看内存
在Linux下查看内存我们一般用free命令:[root@scs-2 tmp]# free total used free shared buffers cachedMem: 3266180 3250004 16176 0 110652 2668236-/+ buffe
2009-06-03 13:47:00 6461
原创 ubuntu环境安装PHP+Apache
参考的是PHP与MYSQL程序设计(第三版) mysql已经是按照ubuntu的apt-get先装好的,所以剩下的任务就是装apache和PHP了去官网上下载的安装包,不再累述。一. Apache的安装1: $tar zxvf httpd-2_X_XX.tar.gz X代表下载的版本2:$cd httpd-2_X_XX3:$./confi
2009-06-01 20:40:00 1277
转载 用GDB调试程序
转:http://blog.csdn.net/haoel/archive/2003/07/02/2879.aspx作者:陈皓ID:haoel用GDB调试程序GDB概述————GDB是GNU开源组织发布的一个强大的UNIX下的程序调试工具。或许,各位比较喜欢那种图形界面方式的,像VC、BCB等IDE的调试,但如果你是在UNIX平台下做软件,你会发现GDB这个调试工具有比VC、BC
2009-04-14 18:36:00 3319
转载 我不会OOO,仍然可以XXX
转载时请注明出处和作者联系方式文章出处:http://www.limodev.cn/blog作者联系方式:李先静 按照《审死官》里的读法,标题可以读着:答复:我不会圈圈圈,仍然可以叉叉叉。圈圈叉叉并不特指某个东西,而是一个通配符。代表诸如:我不懂COM原理,仍然调用COM组件。我不懂数据结构,仍然可以写程序。我记不得常用API,仍然照样用IDE。如此等等。我是个爱好和平的人
2009-02-12 11:47:00 1815 2
转载 单向链表的几道题
http://blog.csdn.net/wplxb/archive/2007/07/02/1675718.aspx---------------------------------------------------------------------------1. 转置单向链表 (也就是反序,注意链表的边界条件并考虑空链表)。#include struct listtype{ in
2008-06-27 19:59:00 1124
原创 斜对角线顺序填充矩阵(very useful in DP)
#includestdio.h>#define M 4#define N 5int a[M + 3][N + 3];int i,j;int main()...{//斜对角线方式顺序填充矩形 for(int k = M + N; k >= 0; k--) ...{ if(k >= M) j = k - M,i = k - j;
2008-05-11 13:43:00 1936
原创 ?:操作符学习
#includestdio.h>int p()...{ static int i = 0; i++; printf("i: %d ",i); return i;} int main()...{ int j = 0; j = j p() ? j : p();//p()执行一次 /**//*int j = 1; j = j */ return 0;}
2008-04-26 10:40:00 588
原创 PKU ACM 1000~1010解题总结
1001 求高精度幂分析: 其实也就是高精度,大数值的乘法。方法: 实际使用的是通过字符数组来保存输入和输出,并利用字符数组模拟手算乘法的步奏来实现高精度的乘法。难点: 思路需清楚,小数点的位置要处理好,可以考虑把小数和整数部分分开计算。1002 统计重复电话号码分析: 需要替换字母并统计重复方法: 1.先用了一个包含所有号码的大数组来统计重复的号码O(N),结
2008-02-22 19:03:00 2027 2
原创 Dempster-Shafer Theory
Dempster-Shafer Theory DS理论也被认为是信度函数理论,是主观概率(subjective probability)的贝叶斯理论的扩展。信度函数允许我们基于信度使用一个问题的概率来推导一个相关问题的概率。这些信度值可能有也可能没有概率的数学性质;他们与概率的差异大小将取决于这两个问题有多相关。 History.. DS理论基
2008-01-16 10:46:00 14433 4
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人