大数据阶段-知识点总结
知识点总结
x我有辣条跟我走。
当你的才华还撑不起你的野心时,就应该静下心来学习。
展开
-
大数据技术之高频面试题
第一章项目涉及技术1.1Linux&Shell1.1.1 Linux常用高级命令 序号 命令 命令解释 1 top 查看内存 2 df -h 查看磁盘存储情况 3 iotop 查看磁盘IO读写(yum install iotop安装) .原创 2020-11-12 20:32:40 · 9061 阅读 · 2 评论 -
数据仓库的分层
数仓为什么要分层?1.把复杂问题简单化 把复杂的任务分解成多层来完成,每一层只处理简单的任务,方便定位。2.减少重复开发 规范数据分层,通过中间层数据,能够减少极大的重复计算,增加一次结果的重复性3.隔离原始数据 不论是数据的异常还是数据的敏感性,使真实数据与统计数据解耦开。数据仓库分层:ODS层:原始数据层,存放原始数据,直接加载原始日志,数据保持原貌不做处理。DWD层:对ODS层数据进行清洗(去空值,脏数据,超过极限范围的数据),维度退化(小表和成大表),脱敏(手机...原创 2020-10-29 20:35:38 · 1179 阅读 · 0 评论 -
数据仓库的同步策略
目录同步策略四种表20张表分别属于什么分区策略数据的同步主要得益于:数据仓库的同步策略,它的同步策略有四种。同步策略全量同步策略:每日全量,导入完整数据到hive的分区表,就是每天存储一份完整数据,作为一个分区。适用于表数据量不大,且每日都有新数据插入,也会有旧数据修改的场景。例如:编码字典表,且每天即会有数据插入,也会有旧数据的修改的场景。增量同步策略:每日增量, 就是每天存储一份增量数据,作为一个分区。适用于数据量大,且每天只会有新数据插入的场景。例如:退单表原创 2020-10-28 20:06:59 · 1276 阅读 · 0 评论 -
大数据面试题汇总(含数仓)
10月22日1.zookeeper中尽可能多的创建节点好吗?每个节点都会存储东西,如果太多节点就会使它的它的性能不好。2.zookeeper的一个节点上默认存储多少的数据?3.在你接触的项目里面,你的zookeeper在哪些地方使用了?hadoop 的HA,其他的一些HA场景Kafka ,hbase,spark streaming与kafka整合还有一些场景:配置文件管理(例),负载均衡,动态上下线...4.zookeeper是怎样进行监听的?某...原创 2020-10-23 17:46:51 · 960 阅读 · 0 评论 -
lockback的使用
转载于:java风云目录logback简介logback配置介绍logback.xml配置详解logback简介logback是由log4j的创始人开发的新日志框架,包括三个模块:logback-core logback-classic logback-accesslogback-core是核心模块,logback-classic是日志框架,相当于log4j,logback很好的实现了slf4j,logback-access提供跟web 容器有关的日志访问功能。logb原创 2020-10-20 16:47:48 · 1067 阅读 · 0 评论 -
Flume的拦截器原理及其配置
配置:file-flume-kafka.confflume中主要用到的就是配置文件com.bigdata.flume.interceptor.LogETLInterceptor和com.bigdata.flume.interceptor.LogTypeInterceptor是自定义的拦截器的全类名。需要根据用户自定义的拦截器做相应修改。拦截器:它的里面有两个自定义的拦截器,一个是数据清洗的拦截器,一个是日志类型的拦截器。拦截器就相当于map,有kv值。key :就是头,给他个名字叫做.原创 2020-10-23 11:44:37 · 878 阅读 · 0 评论 -
Zookeeper总结图
原创 2020-10-22 17:39:08 · 133 阅读 · 0 评论 -
Flink知识点总结
1.什么是flink?ApacheFlink是一个框架和分布式处理引擎,用于对无界和有界数据流进行状态计算。Flink能够提供毫秒级别的延迟,同时保证了数据处理的低延时,高吞吐和结果的正确性,还提供了丰富的时间类型和窗口计算,Exactly-once (就一次)语义支持,另外还可以进行状态管理,并提供了CEP(复杂事件处理)的支持。2.sparkstreaming 和 strom 有啥区别?storm:实时,优点:良好的容错性,事务;并且是单一的框架sparkString:批处理,.原创 2020-09-21 18:50:37 · 2036 阅读 · 1 评论 -
Scala的知识点总结
scala官网:https://www.scala-lang.org/在线帮助手册:https://docs.scala-lang.org/快速开始:https://docs.scala-lang.org/getting-started.htmlscala之旅:手册:https://docs.scala-lang.org/tour/tour-of-scala.html特性scala是什么?Scala是一门现代的多范式语言,志在以简洁、优雅及类型安全的方式来表达常用的编程模型。它平滑地集成了面向原创 2020-08-06 16:36:58 · 226 阅读 · 0 评论 -
Spark考试题总结
一.选择判断1.单选下面哪个不是 RDD 的特点 ( )A.可分区 B.可序列化 C.可修改 D.可持久化关于累加器,下面哪个是错误的 ( )A.支持加法B.支持数值类型C.可并行D.不支持自定义类型Scala语言中,以下说法正确的是()A.常量和变量都可以不用赋初始值B.常量需要赋初始值,变量可以不用赋初始值C.常量和变量都需要赋初始值D.常量不需要赋初始值,变量必须赋初始值下面对MapReduce描述错误的是( )A. 适合离线批处理 B. 具有很好的容...原创 2020-10-12 17:27:03 · 25719 阅读 · 4 评论 -
spark知识点总结
spark翻译Apache Spark is a fast and general-purpose cluster computing system. It provides high-level APIs in Java, Scala, Python and R, and an optimized engine that supports general execution graphs. It also supports a rich set of higher-level tools incl原创 2020-08-22 15:18:12 · 654 阅读 · 0 评论