大数据
文章平均质量分 92
xindoo
10年技术博主,博客专家,曾就职于阿里 小米,目前任贝壳资深工程师。拥有运维、搜索广告、后端业务相关工作经验,擅长Java、Lniux、Redis……
展开
-
布隆过滤器(BloomFilter)原理 实现和性能测试
布隆过滤器是一种大家在学校没怎么学过,但在计算机很多领域非常常用的数据结构,它可以用来高效判断某个key是否属于一个集合,有极高的插入和查询效率(O(1)),也非常省存储空间。当然它也不是完美无缺,它也有自己的缺点,接下来跟随我一起详细了解下BloomFilter的实现原理,以及它优缺点、应用场景,最后再看下Google guava包中BloomFilter的实现,并对比下它和HashSet在不同...原创 2019-11-21 19:28:08 · 8588 阅读 · 2 评论 -
我知道的大数据
随着科技的发展,信息的收集也越来越容易,再加上摩尔定律,大的数据量处理也成为了可能。什么是大数据,也许你有几千个人的基本信息、也许你有数百条购物记录,但这都不不是大数据,大数据至少在千万的数据量上。 大数据有什么作用?其实数据中是包含各种规律的,互联网时代的数据以不在那么直观,再加上超大的数据量,人工已经很难从中找到规律或者关联了,但这并不意味着这些规律联系永远无法被发掘出来,事实原创 2014-07-22 07:06:03 · 1804 阅读 · 0 评论 -
OpenTSDB简介
OpenTSDB(Open time series data base),开发时间序列数据库。DB这个词很有误导性,其实并不是一个db,单独一个OpenTSDB无法存储任何数据,它只是一层数据读写的服务,更准确的说它只是建立在Hbase上的一层数据读写服务。行业内各种db都很多了,为什么还会出现它?它到底有什么好?它做了什么?别着急,我们来一一分析下。 其实OpenTSDB不是一个通用......原创 2018-03-24 10:07:24 · 22993 阅读 · 0 评论 -
大数据下的实时热点功能实现讨论(实时流的TopN)
我司内部有个基于jstorm的实时流编程框架,文档里有提到实时Topn,但是还没有实现。。。。这是一个挺常见挺重要的功能,但仔细想想实现起来确实有难度。实时流的TopN其实离大家很近,比如下图百度和微博的实时热搜榜,还有各种资讯类的实时热点,他们具体实现方式不清楚,甚至有可能是半小时离线跑出来的。今天不管他们怎么实现的,我们讨论下实时该怎么实现(基于storm)。 加入我们现在有...原创 2018-04-15 11:14:05 · 10157 阅读 · 0 评论