学习大数据都需要了解哪些

学习大数据的基础知识小总结

大数据技术栈
首先,大数据是一个非常数据化的专业,要了解很多数据库、数据仓库、框架、各种服务及系统。那么小总结一下大概需要了解的知识点。
Hadoop
  1. HDFS分布式文件系统:NameNode、DataNode
  2. Yarn集群资源管理器:ResourceManager、NodeManager
  3. MapReduce批处理框架
数据仓库Hive
  1. hive表的分类:外部表、内部标、分区表、分桶表、视图、索引…
    这个是以往作品里关于hive的基本应用 https://blog.csdn.net/weixin_45645794/article/details/106806965
混合处理框架Spark
  1. Spark Core:
  • Spark SQL :DataSet、DataFrame
  • Spark Streaming流处理框架:DStream
  • MLlib机器学习库
  • Graphx图形处理库
  1. 集群框架
  • Master
  • Cluster Manager
  • Worker Node:Executor-Task、Cache
混合处理框架Flink
  1. Bath(DataSet API)
  2. Streaming(DataStream API)
  3. Table API & SQL
  4. 扩展库:
  • Event Processing(CEP)
  • Graphs:Gelly
  • Machine Learning
流处理框架Storm
  1. 核心框架:Topology、Spout、Bolt、Stream
  2. 集群架构:Nimbus、Supervisors
面向列的数据库HBase
  1. 核心概念:Row Key(主键)、Column Family(列族)、Column Qualifter(列限定符)、Column(列)、Cell
  2. 集群架构:HMaster、Region Servers
分布式协调服务Zookeeper
  1. Znode:永久节点、临时节点、有序节点
  2. Watcher
  3. ACL:Permissions、Id、Schemes
  4. ZAB:崩溃恢复、消息广播
KafKa
  1. Messages And Batches(消息与批次)
  2. Topics And Partitions(主题与分区)
  3. Producers And Consumers(生产者与消费者)
  4. Brokers And Clusters
工具
  1. Azkaban分布式人物调度框架:
  • 核心概念:Job、Flow(Flow1.0、Flow2.0)
  • 架构:WebServer、ExecutorServer
  1. Flume数据收集工具:
  • Event:数据传输的基本单元
  • Source:数据源
  • Channel:临时存储数据的管道
  • Sink:数据处理单元
  • Agent
  1. Sqoop数据迁移工具:用于在不同存储系统之间实现数据的导入和导出
  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值