![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
云计算
文章平均质量分 83
Frank123721
CS phd在读
展开
-
Bloom Filter 系列改进之Partial Bloom Filter
在标准的Bloom Filter中,我们用k个相互独立的哈希函数将一个集合映射到长度为m的位数组中,其中每个哈希函数的映射范围都为{0, … , m-1}。除了这种标准的实现方式之外,还有一种实现被广泛采用,就是所谓的Partial Bloom Filter。 Partial Bloom Filter和标准Bloom Filter唯一不同的地方在于哈希函数的映射范围。在原创 2014-11-15 09:47:37 · 1035 阅读 · 1 评论 -
Error:scalac: bad option: -P:genjavadoc:out=D:\spark\unsafe\target\java
如果在用intel idea编译代码的时候出现如题所示错误,我用来编译spark的。那么解决的方法是在项目中搜索scala_compiler.xml文件,然后将其中的目录改为适合自己系统的目录。出现此错误的原因多半因为项目之前在win7操作系统上编译通过,然后移植到其他系统上可能出现如上错误。原创 2015-12-15 09:33:42 · 1417 阅读 · 0 评论 -
spark streaming 的wordcount程序,从hdfs上读取文件中的内容并计数
首先说一下如何如何用spark-submit运行example中的NetworkWordCount 程序:自己新建一个scala文件命名为:NetworkWordCount ,包路径为com.pdl,然后将example中的NetworkWordCount中的内容拷贝到你新建的scala中,代码如下:object NetworkWordCount { def main(args:原创 2015-10-16 08:26:02 · 3396 阅读 · 0 评论 -
Win7下IDEA搭建Spark源代码阅读环境。
一:实验环境准备:JDK: Java 语言的软件开发工具包(SDK)Scala:Spark是用Scala语言写成的,在本地编译执行需要这个包SBT:scala工程构建的工具Git:IDEA自动下载SBT插件时可能会用到的工具IDEA:有两个版本:Ultimate Edition & Community EditionSparkSource Code:Spark源码以上软件或者安装包原创 2015-10-13 11:50:37 · 2898 阅读 · 0 评论 -
Bloom Filter 系列改进之Bloom Tree
bloom tree的设计: 如果对bloom filter不是很了解,请参看我之前写过的blog。 bloom tree 是一个d叉完全树,存储的是一个个(key,value)键值对,bloom tree支持近似的表格查询,当一个被查询元素的key被给出时,bloom tree会在一定的可能性下给出正确的值,一个特别的特点是bloom tree是由value构建的,不像传统的翻译 2014-11-15 23:59:47 · 2017 阅读 · 0 评论 -
Bloom Filter 系列改进之Split Bloom Filter
简单的Bloom Filter中,如果原创 2014-11-15 09:57:32 · 1581 阅读 · 0 评论 -
Bloom Filter 系列改进之Scalable Bloom Filter
啊啊啊、翻译 2014-11-15 20:08:13 · 2545 阅读 · 0 评论 -
Bloom Filter 系列改进之Counting Bloom Filter
Bloom Filter的出现,使得海量数据搜索的效率提高了非常多,原创 2014-11-14 20:46:54 · 9798 阅读 · 4 评论 -
Bloom Filter 系列改进之Multi-dimension Bloom Filter
针对多维元素的表示和查询问题,目前存在一种多维布鲁姆过滤器(MDBF)【17]解决方案。MDBF采用和元素维数相同的多个标准布鲁姆过滤器组成,直接将多维元素的表示和查询分解为单属性值子集合的表示查询,元素的维数有多少,就采用多少个标准的布鲁姆过滤器分别表示各自对应的属性。进行元素查询时,通过判断多维元素的各个属性值是否都在相应的标准布鲁姆过滤器中来判断元素是转载 2014-11-15 17:56:55 · 1273 阅读 · 0 评论 -
Bloom Filter 主流Hash散列算法介绍
散列函数是将字符串或者数字作为输入,通过计算输出一个整数,理想的散列函数输出非常均匀分布在可能的输出域,特别是当输入非常相似的时候。不同于加密散列函数,这些函数不是为防止攻击者找出碰撞而设计的。加密散列函数有这个特性但是要慢的多: SHA-1大约为0.09 bytes/cycle,而最新的非加密散列函数的速度大约为3 bytes/cycle。所以在不考虑抵御攻击的成本下,非原创 2014-11-13 20:46:09 · 3234 阅读 · 0 评论 -
Bloom Filter 背景与详细公式推导
在判断一个元素是否在某个集合中时,原创 2014-11-14 17:23:17 · 1736 阅读 · 0 评论 -
Bloom Filter 系列改进之Compressed Bloom Filter
在bloom filter的错误率f最小时,也就是最优的原创 2014-11-15 07:58:24 · 1814 阅读 · 0 评论 -
用idea编译spark源码出现错误 not found: type SparkFlumeProtocol...not found: type EventBatch
在使用sbt对spark源代码进行编译之后(流程请查看上一篇博客http://blog.csdn.net/zhaoyunxiang721/article/details/49096507),使用idea来build源代码时可能会出现如下错误:Error:(45, 66) not found: type SparkFlumeProtocol val transactionTimeout原创 2015-10-15 16:27:57 · 8803 阅读 · 7 评论