Kafka深度解析
高并发系统数据幂等
- 摘要
在系统开发过程中,经常遇到数据重复插入、重复更新、消息重发发送等等问题,因为应用系统的复杂逻辑以及网络交互存在的不确定性,会导致这一重复现象,但是有些逻辑是需要有幂等特性的,否则造成的后果会比较严重,例如订单重复创建,这时候带来的问题可是非同一般啊。 - 什么是系统的幂等性
幂等是数据中得一个概念,表示N次变换和1次变换的结果相同。 - 幂等性接口的不足
1、增加了额外控制幂等的业务逻辑,复杂化了业务功能;
2、把并行执行的功能改为串行执行,降低了执行效率。
因此除了业务上的特殊要求外,尽量不提供幂等的接口。 - http://www.jb51.net/article/90010.htm
- http://marvinsworld.cn/2016/06/02/idempotent-solutions/
- 2016-09-11
Google后Hadoop时代的新“三驾马车”——Caffeine、Pregel、Dremel
- 摘要
Dremel可在大约3秒钟时间里处理1PB的数据查询请求
发表于2012-08-20 16:39 - http://www.csdn.net/article/2012-08-20/2808870
- 2016-09-10
- 2016-09-23补充
记录内聚合
由于Demel支持List的数据类型,有的时候,我们需要计算每个记录里面的各个List的聚合。如
Q4 : SELECT COUNT(c1 > c2) FROM (SELECT SUM(a.b.c.d) WITHIN RECORD AS c1, SUM(a.b.p.q.r) WITHIN RECORD AS c2 FROM T3)
我们需要count所有sum(a.b.c.d)比sum(a.b.p.q.r),执行这条语句实际只需要扫描13GB的数据,耗时15s,而整张表有70TB。如果没有这样的嵌套数据结构,这样的查询会很复杂。
为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法,Apache 软件基金会发起了一项名为“Drill”的开源项目。Apache Drill 实现了 Google’s Dremel.