抽取网页中的主要内容

抽取网页中的主要内容,是文本挖掘预处理中一个很头疼的问题。但是现在一切都不是问题。

2013-11-29 17:16:02

阅读数:943

评论数:0

Hadoop Bloom Filter 使用

1.Bloom Filter  默认的     BloomFilter filter =new BloomFilter(10,2,1); // 过滤器长度为10 ,用2哈希函数,MURMUR_HASH (1)     Key  key  =new Key("hadoop"...

2013-11-29 15:55:01

阅读数:1501

评论数:0

Bloom filter 2

1 Bloom filter 计算方法 如需要判断一个元素是不是在一个集合中,我们通常做法是把所有元素保存下来,然后通过比较知道它是不是在集合内,链表、树都是基于这种思路,当集合内元素个数的变大,我们需要的空间和时间都线性变大,检索速度也越来越慢。 Bloom filter 采用的是哈希函数的方...

2013-11-29 15:41:20

阅读数:546

评论数:0

Bloom Filter

Bloom Filter概念和原理 焦萌 2007年1月27日   Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属...

2013-11-29 15:38:23

阅读数:494

评论数:0

MurmurHash

public int hash(byte[] data, int length, int seed) {     int m = 0x5bd1e995;     int r = 24;     int h = seed ^ length;     int len_4 = lengt...

2013-11-29 15:20:24

阅读数:760

评论数:0

Jenkins hash

最早,Bob Jenkins提出了多个基于字符串通用Hash算法(搜Jenkins Hash就知道了),而Thomas Wang在Jenkins的基础上,针对固定整数输入做了相应的Hash算法。其64位版本的 Hash算法如下: uint64_t hash(uint64_t key) { ...

2013-11-29 15:17:10

阅读数:2512

评论数:0

MR for Baum-Welch algorithm

The Baum-Welch algorithm is commonly used for training a Hidden Markov Model because of its superior numerical stability and its ability to guarantee...

2013-11-27 21:30:54

阅读数:995

评论数:0

MR PAGERANK思路

map( key: [url, pagerank], value: outlink_list ) for each outlink in outlink_list emit( key: outlink, value: pagerank/size(outlink_list) ...

2013-11-27 21:24:23

阅读数:606

评论数:0

using MR to compute PageRank

In this post I explain how to compute PageRank using the MapReduce approach to parallelization. This gives us a way of computing PageRank that can in...

2013-11-27 21:22:39

阅读数:898

评论数:0

实现像百度一样的自动补全功能

import java.io.IOException; import java.io.Reader; import java.util.ArrayList; import java.util.HashMap; import java.util.Iterator; import java.util....

2013-11-27 21:19:25

阅读数:734

评论数:0

CRF资料

与最大熵模型相似,条件随机场(Conditional random fields,CRFs)是一种机器学习模型,在自然语言处理的许多领域(如词性标注、中文分词、命名实体识别等)都有比较好的应用效果。条件随机场最早由John D. Lafferty提出,其也是Brown90的作者之一,和贾里尼克相似...

2013-11-26 20:38:57

阅读数:1245

评论数:0

HBase Compaction

当 client 向 hregion 端 put() 数据时, HRegion 会判断当前的 memstore 的大小是否大于参数hbase.hregion.memstore.flush.size 值,如果大于,则执行 flushcache() 操作,将 hregion 上的 memstore 刷...

2013-11-26 09:11:56

阅读数:578

评论数:0

HBase 协处理器实现二级索引

HBase在0.92之后引入了coprocessors,提供了一系列的钩子,让我们能够轻易实现访问控制和二级索引的特性。下面简单介绍下两种coprocessors,第一种是Observers,它实际类似于触发器,第二种是Endpoint,它类似与存储过程。由于这里只用到了Observers,所以只...

2013-11-26 09:11:44

阅读数:1853

评论数:0

HBase 二级索引与Join

二级索引与索引Join是Online业务系统要求存储引擎提供的基本特性。RDBMS支持得比较好,NOSQL阵营也在摸索着符合自身特点的最佳解决方案。 这篇文章会以HBase做为对象来探讨如何基于Hbase构建二级索引与实现索引join。文末同时会列出目前已知的包括0.19.3版secondary ...

2013-11-26 09:11:16

阅读数:912

评论数:0

HBase Muti-Master

为了保证HBase集群的高可靠性,HBase支持多Backup Master 设置。当Active Master挂掉后,Backup Master可以自动接管整个HBase的集群。 该配置极其简单: 在$HBASE_HOME/conf/ 目录下新增文件配置backup-masters,在其内添加要...

2013-11-26 09:10:23

阅读数:891

评论数:0

NOSQL schema创建原则

(1)数据规模 Bigtable类数据库系统(HBase,Cassandra等)是为了解决海量数据规模的存储需要设计的。这里说的海量数据规模指的是单个表存储的数据量是在TB或者PB规模,单个表是由千亿行*千亿列这样的规模组成的。提到这个数据规模的问题,不得不说的就是现在在NoSQL市场中,最火的...

2013-11-26 09:10:05

阅读数:1422

评论数:0

HBase flush

flush触发方式 1. Server端执行更新操作(put、delete、multi(MultiActionmulti)、(private)checkAndMutate、mutateRow (byte[] regionName, RowMutations rm))执行前后触发内存检查 操作执...

2013-11-26 09:09:44

阅读数:1056

评论数:0

阅读源码

编者按:原文作者Alan Skorkin是一名软件开发人员,他在博客中分享对软件开发相关的心得,其中有很多优秀的文章,本文是其中的另一篇。Alan认为:阅读优秀代码是提高开发人员修为的一种捷径。以下是全文。 我突然想起来,很多程序员都讨厌阅读代码。来吧,承认吧! 每个人都喜欢编写代码,编...

2013-11-26 09:09:31

阅读数:546

评论数:0

HBase行锁

1 行锁简介 在事务特性方面,hbase只支持单row的事务,不能保证跨row(cross-row)的事务。hbase通过行锁来实现单row事务。客户端进行操作时,可以显式对某一个行加锁,但是大部分情况下是没有必要的,因为如果没有显式的加行锁,hbase在内部会默认的加行锁。为了描述方便,用户显...

2013-11-26 09:08:32

阅读数:1354

评论数:0

hadoop运维

在实际的生产环境运维一个Hadoop集群有一些必须要关注的事情。 1、Namenode的高可靠性 2、节点配置与管理 3、Mapreduce的内存配置 4、启用trash 首要的是保证数据安全可靠,其次再去考虑存储效率、计算效率、运维效率的优化与提高,当你觉得Hadoop集群的性能太差太差的...

2013-11-26 09:08:22

阅读数:760

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭