001-大数据技术
文章平均质量分 82
大数据平台与技术
大数据_苡~
大数据领域 | 数据仓库建设 | 数据模型设计 | 实时计算 | 数据开发 | 数据中台 | 数据治理
展开
-
dolphinscheduler海豚调度(二)快速运行第一个项目
在点击运行之后,在启动前请先设置参数的界面勾选是否是补数,并选中对应的补数方式和日期即可。注意:上线状态的工作流不能编辑,如果需要编辑则需要将该工作流下线。好了,第一个的dolphinScheduler 任务就完成了。进入对应的工作流,选中你要单独运行的任务,右键点击运行即可。第二步,进入刚才创建好的项目,工作流定义,创建工作流。可以在任务实例中查看刚才执行的任务运行状态和日志。此外,如果想运行单一任务该如果操作?确定,保存,这样一个任务就完成了。在工作流定义中也可以设置定时。第一步,项目管理,创建项目。原创 2024-02-27 16:26:46 · 613 阅读 · 0 评论 -
分布式消息队列Kafka,收藏这篇文章就够了
分布式消息队列Kafka,收藏这篇文章就够了一、kafka是什么?MQ是一个消息中间件,可以在服务器之间进行通信。常见的消息队列模式点对点Queue:一个消息只能被一个消费者接收发布与订阅Topic:一个消息可以被订阅了该主题的多个消费者接收常见的消息队列产品activeMQ,activeMQ可以做到事务的支持,为了数据的严谨性,业务系统一般选择activeMQrabbitMQzeroMQrocketMQkafka 只有订阅与发布kafka是一个分布式消息队列中间件,跟传统的原创 2021-10-18 16:50:19 · 475 阅读 · 0 评论 -
seatunnel数据集成(二)数据同步
如果用的是Spark/Flink引擎,需要Spark/Flink已经集成好了Hive。放到 $SEATUNNEL_HOME/lib/ 目录下。如果用SeaTunnel Zeta引擎,需要将。指定作业模式为:STREAMING。需求:根据创建时间,每天增量抽取。原创 2024-02-05 23:54:05 · 2315 阅读 · 0 评论 -
Fink CDC数据同步(二)MySQL数据同步
和旧的快照读相比有以下优点:1. 并行读取 2. 支持checkpoint 3. 不需要锁表;当需要并行读取时,server-id需要设置数值范围,如5400-5408。当开启scan.incremental.snapshot.enabled时,建议指定server-id;connector 连接 MySQL 服务的最长等待超时时间。connector 创建 MySQL 连接的重试次数。MySql server 的主机名或者 IP 地址。连接 MySQL 数据库的用户名。连接 MySQL 数据库的密码。原创 2024-02-03 22:28:49 · 1912 阅读 · 0 评论 -
Fink CDC数据同步(六)数据入湖Hudi
Apache Hudi(简称:Hudi)使得您能在hadoop兼容的存储之上存储大量数据,同时它还提供两种原语,使得除了经典的批处理之外,还可以在数据湖上进行流处理。当开启change log mode,保留的最大commit数量。上面的查询方式是非流式查询,流式查询会生成一个flink作业,并且实时显示数据源变更的数据。将MySql映射表的数据插入hudi表,此时会生成一个flink任务。此时,执行select 语句就会生成一个flink 作业。,如果想消费所有数据,设置值为earliest。原创 2024-02-04 12:41:48 · 1690 阅读 · 0 评论 -
Fink CDC数据同步(四)Mysql数据同步到Kafka
这里指定的Kafka topic会自动创建,也可以预先自行创建。将下列依赖包放在flink/lib。创建upsert-kafka 表。创建MySQL映射表。原创 2024-02-04 12:24:27 · 2178 阅读 · 4 评论 -
Fink CDC数据同步(三)Flink集成Hive
Flink利用Hive的MetaStore作为持久化的Catalog,我们可通过HiveCatalog将不同会话中的 Flink元数据存储到Hive Metastore 中。Flink打通了与Hive的集成,如同使用SparkSQL或者Impala操作Hive中的数据一样,我们可以使用Flink直接读写Hive中的表。原创 2024-02-03 22:38:29 · 1413 阅读 · 0 评论 -
Fink CDC数据同步(五)Kafka数据同步Hive
通过flink sql client 建Kafka topic的映射表。如果没有切换hive方言建hive表会报错。原创 2024-02-04 12:26:44 · 1245 阅读 · 0 评论 -
日志采集工具——Flume
一、Flume介绍1.1 概述fcloudera开源提供的一个开源的日志采集工具; 可以从各个地方采集我们的数据 socket网络数据包, 文件夹, 某一个指定的文件里面, kafka消息队列里面采集。 可以将采集来的数据,发送到其他地方,比如日之外文件,hdfs数据存储,kafka消息队列。一些概念:Event: 一个数据单元,消息头和消息体组成。(Even...原创 2020-04-17 11:14:51 · 1035 阅读 · 0 评论 -
seatunnel数据集成(四)转换器使用
seatunnel除了丰富的连接器类型,其转换器也能够让数据转换更加简单,包括Copy,Filter,FieldSelector,FielMapper,DATa Filter,TypeConverter,Replace,Split,FilterRowKind,SQL,SQL Functions等。原创 2024-02-06 00:23:44 · 2702 阅读 · 0 评论 -
数据同步工具对比——SeaTunnel 、DataX、Sqoop、Flume、Flink CDC
SeaTunnel是一个分布式、高性能、支持多种数据源之间高效数据同步的开源工具。它旨在解决大数据处理过程中的数据同步问题,支持实时数据处理和批量数据处理,提供了丰富的数据源连接器,包括Kafka、HDFS、JDBC等。DataX是阿里巴巴开源的一个异构数据源离线同步工具,主要用于在各种异构数据源之间高效的进行数据同步,支持包括MySQL、Oracle、HDFS、Hive等在内的多种数据源。Sqoop是一款开源的工具,用于在Hadoop和关系型数据库之间高效地传输数据。原创 2024-02-07 22:49:31 · 5904 阅读 · 1 评论 -
seatunnel数据集成(一)简介与安装
在Apache的仓库下载相应的connector,下载时每个jar包在不同的路径下面,放到/SeaTunnel-2.3.1/connectors/SeaTunnel目录下。--check 检查config语法是否合法。--variable 应用配置里的变量赋值。下载完毕之后上传到服务器上面并解压。配置安装SeaTunnel的插件。--config 应用配置的路径。下载对应的connector。安装SeaTunnel。原创 2024-02-05 23:38:53 · 1322 阅读 · 0 评论 -
seatunnel数据集成(三)多表同步
seatunnel除了单表之间的数据同步之外,也支持单表同步到多表,多表同步到单表,以及多表同步到多表原创 2024-02-05 23:59:01 · 3424 阅读 · 0 评论 -
Fink CDC数据同步(一)环境部署
Apache Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。Flink CDC 是 Apache Flink 的一组源连接器,基于数据库日志的 Change Data Caputre 技术,实现了全量和增量的一体化读取能力,并借助 Flink 优秀的管道能力和丰富的上下游生态,支持捕获多种数据库的变更,并将这些变更实时同步到下游存储。原创 2024-02-03 22:21:57 · 3417 阅读 · 0 评论 -
Flink+Flink CDC版本升级的依赖问题总结
flink 1.16 + flink-connector-mysql-cdc2.3 的依赖冲突问题总结。原创 2023-09-05 17:05:29 · 5062 阅读 · 0 评论 -
ClickHouse物化视图使用总结
1、clickhouse物化视图是一种空间换时间的预聚合方式,可以解决表索引问题,我们可以用物化视图创建另外一种物理序,来满足某些条件下的查询问题。2、物化视图因为是写入触发器,所以as select只对每批次的insert data有效果,所以即使是where条件也是对这批写入数据起效果。4、多表join生成物化视图,左表插入数据时才更新。3、物化视图只有在原表insert的时候才会触发。5、源表数据的改变不会影响物化视图。原创 2022-10-10 12:11:55 · 1366 阅读 · 0 评论 -
ClickHouse安装部署【非常详细】
本文非常详细地记录了clickhouse安装部署的过程,仅供参考~原创 2022-01-07 18:18:14 · 48738 阅读 · 10 评论 -
Hive SQL迁移Spark SQL在网易传媒的实践
引言:把基于mapreduce的离线hiveSQL任务迁移到sparkSQL,不但能大幅缩短任务运行时间,还能节省不少计算资源。最近我们也把组内2000左右的hivesql任务迁移到了sparkSQL,这里做个简单的记录和分享,本文偏重于具体条件下的方案选择。转载 2021-10-19 10:01:21 · 434 阅读 · 0 评论 -
Spark是怎么进行资源任务和资源分配的?
任务调度机制Spark-submit启动进程,初始化创建SparkContext SparkContext构建DAGSchedular和TaskSchedular 客户端连接master申请注册application master接收application注册申请,根据资源调度算法(FIFO、FAIR)在worker节点上启动多个executor 通知worker启动executor...原创 2020-04-22 11:40:25 · 1330 阅读 · 0 评论 -
80%知识点之分布式消息队列Kafka
一、Kafka是什么二、分片与副本机制三、消息不丢失机制四、分发策略五、负载均衡六、文件存储与查询机制七、安全性一、Kafka是什么Kafka是一个开源的分布式消息队列,通过缓冲,来异构、解耦系统,与其他MQ相比,其优势在于高吞吐高性能。上图所示为Kafka的基本架构,主要为:Cluster:由多个服务器组成,每个服务器单独叫brokerBrok...原创 2020-04-20 10:48:18 · 454 阅读 · 0 评论 -
MapReduce 求共同好友
Step1ComFriendsMapper01public class ComFriendsMapper01 extends Mapper<LongWritable, Text, Text, Text> { @Override protected void map(LongWritable key, Text value, Context context) ...原创 2020-04-17 11:21:43 · 279 阅读 · 0 评论 -
DataWorks概述
目录一、DataWorks概况1.1 定义1.2 功能1.3 与MaxCompute的关系二、基于DataWorks与MaxCompute构建云数仓三、是否适用于本公司一、DataWorks概况1.1 定义DataWorks 是基于MaxCompute计算引擎的一站式开发工场,帮助企业快速完成数据集成、开发、治理、质量、安全等全套数据研发工作。1...原创 2020-01-20 14:50:01 · 35255 阅读 · 0 评论 -
ETL——实现Kettle作业定时任务
1、写一个.bat文件附.bat内容:d:cd D:\will_software_etl\kettle61\data-integrationKitchen.bat -rep Test_Env_Kettle -user -pass -dir /DATAEXCHAGE/TO_48EXPANSION/ -job JOB_DATAEXCHAGE_48_EXPANSION_I -l...原创 2019-12-06 18:59:11 · 1963 阅读 · 1 评论 -
Hadoop分布式文件系统HDFS入门
HDFSHDFS(Hadoop Distributed File System)Hadoop分布式文件系统一、HDFS特性文件系统,存储文件,通过统一的命名空间目录树来定位文件;分布式,由很多服务器联合起来实现其功能。master/slave架构一般一个 HDFS 集群是有一个 Namenode 和一定数目的Datanode 组成。Namenode 是 HDFS 集群主节点,...原创 2019-09-18 10:14:55 · 593 阅读 · 0 评论 -
BD01_Hadoop简介及搭建
一、简史1、Hadoop主要为了解决两个问题海量数据存储 HDFS 海量数据运算 MapReduce2、hadoop的起源起源于一个开源的项目nutch,Hadoop源于谷歌的三篇论文:GFS(google fileSystem), BigTable(key,value对的非关系型数据库) MapReduce(分布式计算框架) 狭义的Hadoop:...原创 2019-09-16 15:17:39 · 339 阅读 · 0 评论 -
大数据技术扫盲,你必须会的这些点
引用“中产之路”公号大佬一句话:我85的,大你们很多,职场开窍晚,等明白过来,机会窗口期过了。程序员在22-32岁这10年属于黄金期,没走好,后面基本废了,所以老铁们,年轻的时候多思考,多跟过来人交流。 请点击输入图片描述虽说人生没有白走的路,新的一年来到,会的还是原来的知识,人的身价就摆在那里,无论怎么折腾,也不会拿到更好的offer。所以在年...转载 2019-05-03 21:01:39 · 257 阅读 · 0 评论 -
大数据工程师学习路线
申明:本文旨在为普通程序员(Java程序员最佳)提供一个入门级别的大数据技术学习路径,不适用于大数据工程师的进阶学习,也不适用于零编程基础的同学。前言:一、背景介绍 二、大数据介绍正文:一、大数据相关的工作介绍二、大数据工程师的技能要求三、大数据学习规划四、持续学习资源推荐(书籍,博客,网站)五、项目案例分析(批处理+实时处理)前言一、背景介绍本人目前是一名大...转载 2019-02-15 08:14:06 · 4103 阅读 · 0 评论