基于大数据平台数据分析技术选型调研

技术选型调研

  • 大方向任务
    • 分布式平台
    • 选出几个可行的方案
    • 分析优缺点
  • 任务细分:
    • 数据源存储的问题
    • 支持分布式的深度学习组件
    • 业内端到端的解决方案有哪些——可借鉴的架构方案

方案路线

  1. hdfs -> mapreduce -> hive(on spark/Tez) -> 提取小批量数据 -> 预建模预分析:sklearn/Tensorflow
  2. hdfs -> yarn -> spark -> spark mllib/TensorFlowonSpark/BigDL

数据存储

分布式文件系统–HDFS

分布式关系型数据库–Hive

优点

  1. 将sql转化为MapReduce,适用于离线批处理环境
  2. Hive的执行延迟比较高,因此Hive常用于数据分析,对实时性要求不高的场合
  3. Hive 优势在于处理大数据
  4. Hive 支持用户自定义函数,用户可以根据自己的需求来实现自己的函数

缺点

  1. 基于MapReduce,速度慢
  2. Hive调优比较困难,粒度较粗
  3. 迭代式算法无法表达
  4. 由于 MapReduce 数据处理流程的限制,效率更高的算法却无法实现

分布式非关系型数据库–HBase

优点

  1. 容量大:Hbase单表可以有百亿行、百万列,数据矩阵横向和纵向两个维度所支持的数据量级都非常具有弹性
  2. 列存储:其数据在表中是按照某列存储的,这样在查询只需要少数几个字段的时候,能大大减少读取的数量,可以动态增加列
  3. 高可用,依赖于Zookeeper
  4. 写入速度快,适用于读少写多的场景
  5. 稀疏性,为空的列并不占用存储空间,表可以设计的非常稀疏。不需要null填充

缺点

  1. 不能支持条件查询,只支持按
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值