大数据知识汇总

1.1文章介绍介绍

本文主要介绍大数据相关的技术和项目

1.2

目录

1.1文章介绍介绍

1.2

项目介绍

1.3 项目指标

1.3.1离线指标

1.3.2实时指标

1.3.3最难的两个指标

1.4项目遇到问题

1.4.1 Sqoop

1.4.2Flume

1.4.3Kafka

1.4.4Hadoop

1.5 项目相关流程问题

1. 如何保证你写的 sql 正确性?

2. 测试数据哪来的?

3. 测试环境什么样?

4. 测试之后如何上线?

5. 你做的项目工作流程是什么?

6. 项目实际工作流程?

7.公司项目版本迭代多久一次多久一次 ,迭代到哪个版本?

8.项目开发中每天做什么事?

9.DWD层做了哪些事?

DWD层做了哪些事?

项目的收获?

第2章 涉及技术

2.1 Linux&Shell

2.1.1 Linux常用高级命令

2.1.2 Linux常用工具及写过脚本

2.1.3 Shell中单引号和双引号区别

2.2 Hadoop

2.2.1 Hadoop基本概念

2.2.2 Hadoop常用端口号

2.2.3 Hadoop 配置文件以及简单的Hadoop 集群搭建

2.2.4 HDFS 读流程和写流程

2.2.5 NameNode工作机制SecongdaryNameNode工作流程恢复流程

2.2.6 HDFS组成架构及主要作用

2.2.7 Hadoop集群启动时要启动哪些进程?作用?

2.2.8 MapReduce工作原理

2.2.9 MapReduce中shuffer机制

2.2.10 MapReduce中切片机制

2.2.11 Yarn工作机制

2.2.12 hadoop的调Yarn调度器,你们使⽤的是哪种策略,为什么?

2.2.13Hadoop、MapReduce数据倾斜怎么处理?

2.2.14HDFS小文件处理

2.2.15Hadoop宕机

2.2.16Hadoop项目经验之基准测试

2.2.16 HDFS在上传文件时,其中一个 DataNode 突然挂掉怎么办

2.2.18 项目经验之压缩

2.2.19 Hadoop优化

2.3 ZooKeeper

2.3.1 ZooKeeper概述

2.3.2 ZooKeeper选举机制

2.3.3 ZooKeeper常用命令

2.3.4 ZooKeeper监听器原理

2.3.5 ZooKeeper 部署方式有哪几种?集群中角色有哪些?最少要几台机器?

2.4 Flume

2.4.1 Flume概述

2.4.2 Flume组成,Put事务,Take事务

2.4.3 Flume拦截器

2.4.4 Flume 监控器

2.4.5 Flume 采集数据会丢失吗?

2.4.6 Flume 参数调优

2.4.7 Flume 优化

2.5 Kafka

2.5.1 Kafka概述

2.5.2 为什么使用kafka

2.5.3 kafka消息队列与传统消息队列区别

2.5.4 kafka主备模式

2.5.5 kafka高吞吐量

2.5.6 kafka架构

2.5.7 kafka机器数量、副本设定、日志保存时间、硬盘大小

2.5.8 kafka中数据量计算

2.5.9 kafka的ISR副本同步队列

2.5.10 kafka挂掉

2.5.11 kafka数据重复

2.5.12 kafka消息数据积压, Kafka消费能力不足怎么处理?

2.5.13 Kafka 消费过的消息如何再消费?

2. 5.14 kafka 的数据是放在磁盘上还是内存上,为什么速度会快?

2.5.15 为什么 Kafka 不支持读写分离?

2.65 MySQL

2.65.1 DDL,DML,DQL,DCL

2.65.1 索引

2.65.2 存储结构

2.65.3 b-tree 和b+tree 的区别

2.65.3 MySQL 的事务要素ACID以及并发问题,脏读幻读和隔离级别等

2.6 Hive

2.6.1 Hive概述

2.6.2 Hive和数据库的比较

2.6.3 Hive内部表和外部表区别

2.6.4 4个by区别

2.6.5 系统函数

2.6.6 窗口函数

2.6.7 自定义UDF、UDTF函数

2.6.8 Union与Union all区别

2.6.9 Hive有哪些计算引擎,区别?

2.6.10 Hive索引吗?

2.6.11 运维如何对hive进行调度

2.6.12 使用hive解析过JSON串吗?

2.6.13 sort by 和 order by,group by, distribute by区别?

2.6.14 hive分区和分桶

2.6.15 hive数据倾斜处理?

2.6.16 hive中表有几类?

2.6.17 hive有哪些数据类型及类型转换?

2.6.18 hive 中drop、truncate和delete区别

2.6.19 hive表的连接方式

2.6.20 hive中count(*)count(1)和count(字段区别)

2.6.21 hive中like_和like%区别

2.6.22 hive性能优化

2.6.23 sql性能优化以及in和exist区别?

子查询语句可以通过in关键字实现,一个查询语句的条件落在另一个select语句的查询结果中。程序先运行在嵌套在最内层的语句,再运行外层的语句。但缺点是mysql执行子查询时,需要创建临时表,查询完毕后,需要再删除这些临时表,有一些额外的性能消耗。

2.7 Hbase

2.7.1 Hbase概述

2.7.2 Hbase与hadoop的关系

2.7.3 Hbase读流程

2.7.4 Hbase写流程

2.7.5 Hbase数据flush过程

2.7.6 Hbase中rowkey原则

2.7.7. 热点现象(数据倾斜)怎么产生的,以及解决方法有哪些

2.7.8. HBase 中 compact 用途是什么,什么时候触发,分为哪两种?

2.8 Spark

2.8.1 Spark概述与运行流程

2.8.2 Spark有哪几种部署方式?请分别简要论述

2.8.3 Spark提交任务参数

2.8.3 如何理解Spark 中的血统概念(RDD)

2.8.4 简述 Spark的宽窄依赖,以及 的宽窄依赖,以及 Spark如何划分 stage,每个 ,每个 stage又根据什么决定 又根据什么决定 task个数 ?

2.8.5 请列举 Spark的 transformation算子

2.8.6 请列举 Spark的active算子

2.8.7 请列举 Spark的引起shuffer的算子

2.8.8 spark中shuffer机制

2.8.9 spark和mapReduce中shuffer区别

2.8.10 简述 Spark中共享变量(广播和累加器)的基本原理与用途

2.8.11 如何使用Spark实现TopN的获取(描述思路或使用伪代码)

2.8.11 spark如何保证宕机迅速恢复?

2.8.12 hadoop 和 spark 的相同点和不同点?

2.8.12 RDD 持久化原理?

2.8.13 checkpoint 检查点机制?

2.8.14 RDD 机制理解吗?

2.8.15 SparkStreaming以及基本工作原理

2.8.16 DStream以及基本工作原理

2.8.17 spark 有哪些组件?

2.8.18 Spark 主备切换机制原理知道吗?

2.8.19 spark 解决了 hadoop 的哪些问题?

2.8.20 数据倾斜的产生和解决办法?

2.8.21 RDD 中 reduceBykey 与 groupByKey 哪个性能好,为什么

2.8.22 Spark Streaming 优雅关闭

2.8.23 SparkStreaming有哪几种方式消费 Kafka中的数据,区别?

2.8.23 介绍一下 cogroup rdd 实现原理,你在什么场景下用过这个 rdd?

2.8.24 Spark 中的 OOM 问题?

2.8.25 Spark SQL 是如何将数据写到 Hive 表的?

2.8.26 通常来说,Spark 与 MapReduce 相比,Spark 运行效率更高。请 说明效率更高来源于 Spark 内置的哪些机制?

2.8.27 Spark Master HA 主从切换过程不会影响到集群已有作业的运行, 为什么?

2.9.1 Flink概述

2.9.2 Flink 集群有哪些角色?各自有什么作用

2.9.3 介绍一下Flink的容错机制

2.9.4 Flink 相比 Spark Streaming 有什么区别

2.9.5 Flink 常用的算子有哪些

2.9.6 如何处理生产环境中的数据倾斜问题

2.9.7 Flink 中的 Time 有哪几种

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
一、课程简介随着技术的飞速发展,经过多年的数据积累,各互联网公司已保存了海量的原始数据和各种业务数据,所以数据仓库技术是各大公司目前都需要着重发展投入的技术领域。数据仓库是面向分析的集成化数据环境,为企业所有决策制定过程,提供系统数据支持的战略集合。通过对数据仓库中数据的分析,可以帮助企业改进业务流程、控制成本、提高产品质量等。二、课程内容本次精心打造的数仓项目的课程,从项目架构的搭建,到数据采集模块的设计、数仓架构的设计、实战需求实现、即席查询的实现,我们针对国内目前广泛使用的Apache原生框架和CDH版本框架进行了分别介绍,Apache原生框架介绍中涉及到的技术框架包括Flume、Kafka、Sqoop、MySql、HDFS、Hive、Tez、Spark、Presto、Druid等,CDH版本框架讲解包括CM的安装部署、Hadoop、Zookeeper、Hive、Flume、Kafka、Oozie、Impala、HUE、Kudu、Spark的安装配置,透彻了解不同版本框架的区别联系,将大数据全生态系统前沿技术一网打尽。在过程中对大数据生态体系进行了系统的讲解,对实际企业数仓项目中可能涉及到的技术点都进行了深入的讲解和探讨。同时穿插了大量数仓基础理论知识,让你在掌握实战经验的同时能够打下坚实的理论基础。三、课程目标本课程以国内电商巨头实际业务应用场景为依托,对电商数仓的常见实战指标以及难点实战指标进行了详尽讲解,具体指标包括:每日、周、月活跃设备明细,留存用户比例,沉默用户、回流用户、流失用户统计,最近连续3周活跃用户统计,最近7天内连续3天活跃用户统计,GMV成交总额分析,转化率及漏斗分析,品牌复购率分析、订单表拉链表的设计等,让学生拥有更直观全面的实战经验。通过对本课程的学习,对数仓项目可以建立起清晰明确的概念,系统全面的掌握各项数仓项目技术,轻松应对各种数仓难题。四、课程亮点本课程结合国内多家企业实际项目经验,特别加入了项目架构模块,从集群规模的确定到框架版本选型以及服务器选型,手把手教你从零开始搭建大数据集群。并且总结大量项目实战中会遇到的问题,针对各个技术框架,均有调优实战经验,具体包括:常用Linux运维命令、Hadoop集群调优、Flume组件选型及性能优化、Kafka集群规模确认及关键参数调优。通过这部分学习,助学生迅速成长,获取前沿技术经验,从容解决实战问题。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值