
过滤去重
小狼_百度
百度,web系统,分布式系统,大数据,机器学习,人工智能等爱好者
展开
-
基于Redis的BloomFilter实战
声明:本文写作皆因个人兴趣,仅供学习目的,限于本人水平有限,不当之处请指正,欢迎讨论。 欢迎转载,转载请注明出处 。 本文地址: http://www.imsiren.com/archives/988 离线数据处理与实时数据处理有很大的不同,其中一个例子就是去重。在聚数据中,访问UV和购买UV都需要实时的去重。离线处理的时候,我们可以通过count(groupby)或者count(转载 2016-08-01 18:28:35 · 2016 阅读 · 0 评论 -
海量数据处理利器之布隆过滤器
看见了海量数据去重,找到停留时间最长的IP等问题,有博友提到了Bloom Filter,我就查了查,不过首先想到的是大叔,下面就先看看大叔的风采。 一、布隆过滤器概念引入 (Bloom Filter)是由布隆(Burton Howard Bloom)在1970年提出的。它实际上是由一个很长的二进制向量和一系列随机映射函数组成,布隆过滤器可以用于检索一个转载 2016-08-01 18:29:56 · 596 阅读 · 0 评论 -
大数据下的Distinct Count(一):序
在数据库中,常常会有Distinct Count的操作,比如,查看每一选修课程的人数:select course, count(distinct sid)from stu_tablegroup by course;Hive在大数据场景下,报表很重要一项是UV(Unique Visitor)统计,即某时间段内用户人数。例如,查看一周内app的用户分布情况,Hive中写转载 2016-08-17 13:51:57 · 2536 阅读 · 0 评论 -
大数据下的Distinct Count(二):Bitmap篇
在前一篇中介绍了使用API做Distinct Count,但是精确计算的API都较慢,那有没有能更快的优化解决方案呢?1. Bitmap介绍《编程珠玑》上是这样介绍bitmap的:Bitmap是一个十分有用的数据结构。所谓的Bitmap就是用一个bit位来标记某个元素对应的Value,而Key即是该元素。由于采用了Bit为单位来存储数据,因此在内存占用方面,可以大大节省转载 2016-08-17 13:53:39 · 2420 阅读 · 0 评论 -
从另一个角度看大数据量处理利器:布隆过滤器
思路:从简单的排序谈到BitMap算法,再谈到数据去重问题,谈到大数据量处理利器:布隆过滤器。情景1:对无重复的数据进行排序@给定数据(2,4,1,12,9,7,6)如何对它排序? 方法1:基本的排序方法包括冒泡,快排等。 方法2:使用BitMap算法 方法1就不介绍了,方法2中所谓的BitMap是一个位数组,跟平时使用的数组的唯一差转载 2016-08-05 18:48:16 · 1374 阅读 · 0 评论 -
redis去重方案优化
tpn(taobao push notification)在使用redis计算消息未读数的过程中,遇到了一系列的问题,下面把这个过程整理了一下,也让大家了解这个纠结的过程,供大家以后使用redis或者做类似的功能时进行参考 redis在tpn里面主要是用于计算移动千牛(Android、IOS)上的消息未读数。tpn的未读消息数是基于bizId维度的,即同一个bizId(每条消息的业务i转载 2016-08-11 16:40:40 · 23729 阅读 · 2 评论 -
高压缩空间占用的 Hyper LogLog 算法
大数据计算:如何仅用1.5KB内存为十亿对象计数 - Hyper LogLog 算法 Big Data Counting: How To Count A Billion Distinct Objects Using Only 1.5KThis is a guest post by Matt Abrams (@abramsm),转载 2016-08-12 17:20:01 · 1735 阅读 · 0 评论