- 博客(4)
- 收藏
- 关注
原创 kafka总结
四:Kafka总结1、生产者丢失数据和重复数据Kafka有两种同步方式:同步(sync)、异步(async),默认是同步,可以通过参数producer.type来设置,Kafka通过配置request.required.acks属性来生产消息:0——代表不进行消息是否成功接收的确认1——代表当leader接收成功时确认-1——代表leader和follower都接收成功的确认1.1)消息发送时数据丢失的情形:acks=0,不和kafka集群进行消息接收的确认,那么当网络异常、缓冲区满了等情况
2022-02-08 10:54:38
970
原创 拉链表实现案例
拉链表使用的场景:数据量大,且表中部分字段会更新,比如用户地址、产品描述信息、订单状态等等 需要查看某一个时间段的历史快照信息 变化比例和频率不是很大--拉链表实现--原始数据CREATE TABLE wedw_tmp.tmp_orders ( orderid INT, createtime STRING, modifiedtime STRING, status STRING) stored AS textfile;--拉链表CREATE TABLE ...
2022-01-20 15:25:48
375
原创 spark面试总结
一:你是如何理解Spark中血统(RDD)的概念?它的作用是什么?概念:RDD是弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算 的集合。作用: 提供了一个抽象的数据模型,将具体的应用逻辑表达为一系列转换操作(函数)。另外不同RDD之间的转换操作之间还可以形成依赖关系,进而实现管道化,从而避免了中间结果的存储,大大降低了数据复制、磁盘IO和序列化开销,并且还提供了更多的API(map/reduec/filter/groupBy...)二:简述Spark的
2022-01-17 17:17:18
1393
原创 Hive 设置map 和 reduce 的个数
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入一、 控制hive任务中的map数:通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决
2021-11-25 19:22:33
436
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人