见田日志
文章平均质量分 72
jiayeliDoCn
这个作者很懒,什么都没留下…
展开
-
大数据知识点
hbase特点分布式列式存储稀疏数据按rowkey字典顺序有序排列高并发hbase数据存储原理hbase的数据会以HFile存储在hdfs上,一个表可以有多个FM,一个FM会对应一个store,store有storeFile和memoryStory组成,stoerFile经过合并操作后会落盘成hbase读hbase写mapreduce原理yarn任务提交原理sql调优hbase读写原理hbase数据合并(compate)shellsparkflink:checkpo原创 2022-02-20 23:59:02 · 674 阅读 · 0 评论 -
flnk面试题
1.阐述 Flink 如何处理反压,相比 Storm,Spark Streaming 提供的反压机制,描述其实现有什么不同?2.阐述流处理引擎提供的三种数据处理语义,解释 Flink Checkpoint 机制如何保证 Flink 程序结果的 Exactly-Once 语义,描述如何通过两阶段提交协议提供端到端的 Exactly-Once 保证?结合 Kafka 如何构建端到端的 Exactly-Once 处理?3.阐述 Flink 提供的容错机制,解释分布式快照 Chandy Lamport 算法逻辑原创 2022-01-15 22:44:25 · 910 阅读 · 0 评论 -
flink 关键知识点
乱序问题解决timewatermark容错重启策略state什么是flink stateflink state用来做什么flink state 怎么用checkpointcheckpiint流程jobManage cpCondate – 触发 --> taskManage: traginCheckpoint --> source --> emit branine --> opetatte: branie对齐 == snapshotState ==持久化到back原创 2022-01-15 22:17:13 · 912 阅读 · 0 评论 -
hive-3.2.1安装 简介
优雅排版版链接:https://note.youdao.com/ynoteshare1/index.html?id=6acce9319859107d92a8f4bbf1e155f8&type=note1,简介Apache Hive™数据仓库软件有助于使用SQL读取,写入和管理驻留在分布式存储中的大型数据集。可以将结构投影到已经存储的数据上。提供了命令行工具和JDBC驱动程序以将用户连接到Hive。1.1什么是hiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件原创 2021-05-05 17:55:41 · 371 阅读 · 1 评论 -
大数据面试题_payh-2020-02-25
hive执行流程dateset datefarmat介绍一下mr运行原理集群规模数据量原创 2021-02-26 01:10:16 · 191 阅读 · 0 评论 -
kafka架构详解
大佬1 | 大佬2以下博文由上面两个大神的博文整理kafka整体架构角色:broker装有 kafka服务的集群(kafka代理),进行kafka集群管理(controle)和消息存储,一个集群由多个 broker 组成。一个 broker 可以容纳多个 topic。produce向Kafka发布(写)消息的客户端应用程序consumer订阅(读和处理)这些消息的客户端应用程序生产者和消费者是完全解耦的,并且彼此是不可知的,这使得其变得非常容易扩展和灵活Co原创 2021-02-26 01:08:34 · 228 阅读 · 0 评论 -
大数据面试00-ztkj笔试题(2021-02-24)
hdfs读写流程写流程:client:hdfsClient + distributeFS + FSDataOutputStreamnameNode,dataNode,客户端的distributeFS模块向nameNode发送上传请求nameNode检查上传的文件和目标目录是否存在,并响应如果不存在的话抛出异常,存在则由client发送请求上传第一个数据块的请求到namenode,namenode返回数据该发往哪几个dataNode的元数据到客户端客户端解析元数据,并由客户端的FSD.原创 2021-02-24 18:28:56 · 309 阅读 · 0 评论 -
hive面试题
hive架构hive原理原创 2021-02-23 11:31:05 · 329 阅读 · 1 评论