基于HBase和Spark构建企业级数据处理平台,面临的场景:金融风控;个性化推荐;社交Feeds;时空时序以及大数据等。作者:大数据与机器学习
面临的场景
金融风控
- 用户画像库
- 爬虫抓取信息
- 反欺诈系统
- 订单数据
个性化推荐
- 用户行为分析
- 用户画像
- 推荐引擎
- 海量实时数据处理
社交Feeds
- 海量帖子、文章
- 聊天、评论
- 海量实时数据处理
时空时序
- 监控数据
- 轨迹、设备数据
- 地理信息
- 区域分布统计
- 区域查询
大数据
- 维表和结果表
- 离线分析
- 海量实时数据存储
新的挑战
Apache HBase(在线查询) 的特点有:
- 松散表结构(Schema free)
- 随机查询、范围查询
- 原生海量数据分布式存储
- 高吞吐、低延迟
- 在线分布式数据库
- 多版本、增量导入、多维删除
面临