Doris数据导入总结

最新推荐文章于 2024-06-27 15:01:32 发布

zxf126126

最新推荐文章于 2024-06-27 15:01:32 发布

阅读量472

点赞数

分类专栏： Doris 文章标签：大数据

本文链接：https://blog.csdn.net/zxf126126/article/details/132180736

版权

1 篇文章 0 订阅

订阅专栏

最近学习了Doris数据导入相关知识，记录一下自己的理解，仅供大家参考

数据导入总览

数据导入是原子性的 - 不论是使用 Broker Load 进行批量导入，还是使用 INSERT 语句进行单条导入，都是一个完整的事务操作。导入事务可以保证一批次内的数据原子生效，不会出现部分数据写入的情况。
在 Doris 侧做到 At-Most-Once 语义，如果结合上游系统的 At-Least-Once 语义，则可以实现导入数据的 Exactly-Once 语义，该特性借助每次导数时提供一个唯一ID（lable）保证，doris内部保留30分钟内最近成功的label

异步导数，会在doris集群中启动broker进程，消耗集群资源，这种方式是在用户没有 Spark 这种计算资源的情况下使用，如果有 Spark 计算资源建议使用 Spark load。

https://doris.apache.org/zh-CN/docs/1.2/data-operate/import/import-way/routine-load-manual

主要用于导入kafka数据
类似Druid读取kafka数据源，FE根据数据源的分区，分配task给BE，BE进程收到任务之后完成Task任务，BE完成任务之后会汇报给FE，FE再分配新的任务给BE
执行 DELETE 操作前，可能需要先暂停例行导入作业，并等待已下发的 task 全部完成后，才可以执行 DELETE。任务运行时长是怎么定义的
max_routine_load_job_num ：FE 配置项，默认为100，可以运行时修改。该参数限制的例行导入作业的总数，包括 NEED_SCHEDULED, RUNNING, PAUSE 这些状态。超过后，不能在提交新的作业
max_consumer_num_per_group ：BE 配置项，默认为 3。该参数表示一个子任务中最多生成几个 consumer 进行数据消费。对于 Kafka 数据源，一个 consumer 可能消费一个或多个 kafka partition。假设一个任务需要消费 6 个 kafka partition，则会生成 3 个 consumer，每个 consumer 消费 2 个 partition。如果只有 2 个 partition，则只会生成 2 个 consumer，每个 consumer 消费 1 个 partition。

https://doris.apache.org/zh-CN/docs/1.2/data-operate/import/import-way/binlog-load-manual

https://doris.apache.org/zh-CN/docs/1.2/data-operate/import/import-way/spark-load-manual

https://doris.apache.org/zh-CN/docs/1.2/data-operate/import/import-way/stream-load-manual

https://doris.apache.org/zh-CN/docs/1.2/data-operate/import/import-way/insert-into-manual

INSERT INTO tbl (col1, col2, …) VALUES (1, 2, …), (1,3, …);命令仅用于 Demo，不要使用在测试或生产环境中
Insert Into 导入的超时时间是统一的，默认的 timeout 时间为1小时，可以修改配置
Insert Into 对数据量没有限制，大数据量导入也可以支持