2013年07月_52caml

转载大数据：web广告

1 定向广告：Web广告按照某个用户的兴趣来选择，使得Web服务通过广告收益来支持运行。2 在线及离线算法：得到所有数据才产生答案的传统算法称之为离线算法。在线算法必须对流中的每一个元素都立即作答，此时仅对过去的信息有所了解，对未来的数据一无所知。3 贪心算法：在线算法采用贪心策略，算法每一步的选择基于某个目标函数的最小化来进行。4 竞争率：在所有可能的输入情况下，通过最小

2013-07-29 21:35:01 937

转载十道海量数据处理面试题与十个方法大总结

原文here，感谢July~第一部分、十道海量数据处理面试题1、海量日志数据，提取出某日访问百度次数最多的那个IP。首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP（可以采用ha

2013-07-25 21:53:39 612

转载从决策树学习谈到贝叶斯分类算法、EM、HMM

感谢作者 July，有此好文！以下是转载, 知识在于分享！原文地址第一篇：从决策树学习谈到贝叶斯分类算法、EM、HMM （Machine Learning & Data Mining交流群：8986884）引言最近在面试中，除了基础 & 算法

2013-07-25 21:43:16 1473

转载 clucene2.3.3.4编译详解

原文地址here，感谢作者~一、首先在sourceforge上下载clucene-core-2.3.3.4 ，在目前这是最新版本的二、安装boost库boost库安装还是有点麻烦的，首先在在boost官网下载boost，解压后，记得一定要解压在C盘，比如我放在C:\boost\boost_1_47_0目录下，在编译代码的时候系统首先在系统目录下找boost库，这样可

2013-07-20 21:35:32 640

转载 java String的split方法容易犯的错误

2013-07-20 15:14:07 826

转载李航：机器学习新动向从人机交互中学习

华为诺亚方舟实验室首席科学家李航发表主题演讲。华为诺亚方舟实验室首席科学家李航　　李航表示，到目前为止，人工智能其他领域研究，我们发现最有力的手段可能还是要基于数据，通过机器学习这样的办法才能够使得我们的机器更加智能化。　　同时，李航认为在机器学习里面到底我们学习多少数据，我们一个结论是需要很多数据的，即使我们仅仅是学一个二类分类器可能都需要成千上万的标注数据　

2013-07-18 18:22:11 2249

原创 Recode process

2013-07-18 星期四天气晴1. IR：chapter12:基于语言建模的信息检索模型看这章的主要目的是熟悉一下，传统的文档检索是基于向量空间模型，其中的权重计算方式为tf-idf：idf(t)用于表示词项t区分文档的能力，如果t出现在大多数文档集中，idf(t)就会很小，说明区分文档的能力就弱，反之则强；这里基于语言建模，并不是以相关性计算为目标，将每一篇文档看做一门"语言"

2013-07-18 16:19:34 651

原创 Paper Read Records

本文用来记录读研期间论文阅读情况，并对每一篇文章给出我自己的理解，必要时做出点评.... 主要是记录我的"reading paper career"，将来能够回忆起"那些年哥读过的论文..."第1篇：题目:《搜索引擎用户查询的广告点击意图分析》作者：靳岩钦，张敏，刘奕群，马少平 ; 单位: 清华大学智能技术与系统国家重点实验室本文主要讲述了基于用户查询点击日志的历史点击信息

2013-07-16 17:17:40 801

转载 Eclipse下mahout实现推荐的简单实例

本BLOG转自here，感谢作者的辛苦~数据准备：test.txt第一列为UserID ，第二列为ItemID，第三列为Preference Value 即评分[plain] view plaincopy1,101,5 1,102,3 1,103,2.5 2,101,2 2,102,2.5 2,103

2013-07-14 21:42:08 750

转载 Hbase shell常用命令

转自: Hbase shell常用命令(1), 感谢作者~下面我们看看HBase Shell的一些基本操作命令，我列出了几个常用的HBase Shell命令，如下：名称命令表达式创建表create '表名称', '列名称1','列名称2','列名称N'添加记录 put '表名称',

2013-07-14 09:39:54 504

转载 HBase伪分布式安装配置

我用的版本是hbase-0.94.9.tar.gz hadoop-1.0.1,将hbase-0.94.9.tar.gz解压到系统主目录下，伪分布式的配置如下：(1)编辑{HBASE_HOME}/conf/hbase-env.sh 文件，设置JAVA_HOME和HBASE_CLASSPATH变量 export JAVA_HOME=/usr/java/jdk1.6.0_33 (自己

2013-07-14 08:48:47 1192

转载 Hadoop常用命令介绍

下面分享一篇常用的Hadoop命令介绍，希望对Hadoop初学者的朋友有所帮助~Hadoop常用命令介绍

2013-07-13 09:45:13 520

原创在线广告简史总结

(参考了计算广告学刘鹏老师的讲义)

2013-07-08 15:09:31 856

原创 Centos启动时无法进入GNOME模式

本机系统为Centos6.4 开机时出现：服务器配置错误 /usr/libexec/gconf-sanity-check-2退出状态256用个人账户登录时(进不去) 在右下角出现"没有正确安装GNOME电源管理器的默认配置..."解决办法：用超级目录进入GNOME：查看磁盘使用率:df -h 本机不是磁盘空间满的原因：由于之前对/tmp进行了操作，怀疑目录权限被更改，于是chmod 7

2013-07-08 08:49:40 5694

原创描述一个概率图模型需要多少参数？

2013-07-07 10:21:04 1049

转载生成模型与判别模型

【摘要】 - 生成模型：无穷样本==》概率密度模型 = 产生模型==》预测 - 判别模型：有限样本==》判别函数 = 预测模型==》预测【简介】简单的说，假设o是观察值，q是模型。如果对P(o|q)建模，就是Generative模型。其基本思想是首先建立样本的概率密度模型，再利用模型进行推理预测。要求已知样本无穷或尽可能的大限制。这种方法一般建立在统计力学和

2013-07-04 16:37:46 819

转载搜索背后的奥秘——浅谈语义主题计算

本文转自百度搜索研发部_官方博客摘要：两篇文档是否相关往往不只决定于字面上的词语重复，还取决于文字背后的语义关联。对语义关联的挖掘，可以让我们的搜索更加智能化。本文着重介绍了一个语义挖掘的利器：主题模型。主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点，并且能够在海量互联网数据中自动寻找出文字间的语义主题。近些年来各大互联网公司都开始了这方

2013-07-02 20:30:15 625

原创伯努利过程与泊松过程

随机过程中有两类很重要的过程：到达过程和马尔科夫过程；Ⅰ. 到达过程：到达过程重点研究的是相邻到达时间(即两次到达之间的时间)是相互独立的随机变量模型。IF考虑到达的时间是离散的情形，相邻时间服从几何分布，即伯努利过程；IF考虑到达的时间是连续的情形，相邻时间服从指数分布，即泊松过程。Ⅱ. 马尔科夫过程：考虑数据在时间点上演化，而且未来数据的演化与历史数据有概率相关结构。比如股票的未来日的

2013-07-02 18:57:11 15188 1

转载用实例理解泊松分布

去年12月，美国康涅狄格州发生校园枪击案，造成28人死亡。资料显示，1982年至2012年，美国共发生62起（大规模）枪击案。其中，2012年发生了7起，是次数最多的一年。去年有这么多枪击案，这是巧合，还是表明美国治安恶化了？前几天，我看到一篇很有趣的文章，使用"泊松分布"（Poisson distribution），判断同一年发生7起枪击案是否巧合。

2013-07-02 10:24:43 28918 3

转载 [学习笔记]学习主题模型(Topic Model)和PLSA( probabilistic latent semantic analysis）

对于理解什么是主题是很好的一篇文章感谢作者主体模型与pLSA

2013-07-02 09:30:08 1187

转载共轭先验以及先验分布与后验分布

如果你读过贝叶斯学习方面的书或者论文，想必是知道共轭先验这个名词的。贝叶斯学派和频率学派的区别之一是特别重视先验信息对于inference的影响，而引入先验信息的手段有“贝叶斯原则“（即把先验信息当着均匀分布）等四大类其中有重要影响的一类是：共轭先验现在假设我们有这样几类概率：P(\theta)（先验分布）, p(\theta|X)（后验分布）, p(X), p(X|\th

2013-07-01 16:38:16 2137

转载 Topic Model_pLSA

\

2013-07-01 15:50:30 636

zhouyongsdzh的专栏