__ __
/ \~~~/ \
,----( .. )
/ \__ __/
/| (\ |(
^ \ /___\ /\ |
|__| |__|-"
学习地址:http://www.chinahadoop.cn/course/57/learn#lesson/643
入门简介
Storm案例分析
统计某个服务被访问的客户端地域分布情况
1.根据IP定位区域
2.数量相加
3.业务分析
解决方案:
Hadoop【适用于批量处理常用语非实时处理】
功能可实现 时效不满足
1.批数据启动一次,处理完进程停止
1.1 启动本身需要时间: 输入切分 调度 起进程
1.2 共享集群Job比较复杂 肯能需要等待资源
2.所有数据需要读写磁盘
解决该方案的要求:
进程常驻运行、数据在内存中
Storm 闪亮出厂
Storm 是什么?
Storm是一个分布式的实时流式计算平台
1.分布式
水平扩展:加机器 提供并发数提高处理能力
自动容错:自动处理进程 机器 网络异常
2.实时:数据不写磁盘 延迟低(毫秒级)
流式:不断有数据流入 处理 流出
开源:Twitter开源 社区活跃 需要时可自行修改源码(阿里已扩展为:Jstorm)
和其他对比:
Storm VS MapReduce
1.常驻内存
2.流式处理:数据来一点处理一点
3.实时处理:数据在内存中不写磁盘
DAG模式:可以组合多个阶段
Storm VS Queue + worker系统
- 维护简单:无需要维护 queue queue和worker对应的关系
-扩展简单:加机器 提高并发 重新提交
-自动容错:进程 机器 网络异常 消息可重发
典型应用场景: