FLINK集成HUDI实战

1.说明

1.环境依赖

flink版本:flink-1.13.0
flink-cdc版本:2.1.0
hudi版本:2.11-0.10.0
hive版本:3.1.0

2.使用过程中FLINK中的包

在这里插入图片描述

3.过程记录

注意

1.我这里读取的是Oracle的实时数据,所以需要开通Oracle的附加日志
2.hudi目前需要自己去编译,也可以在社区中找你想要的包或者直接下载HUDI包下载
3.cdc我这边因为读取的是Oracle所以用的是2.1.0,cdc版本和flink版本对比 在这里插入图片描述

开搞

1.启动flinksql

./sql-client.sh embedded

Setting HADOOP_CONF_DIR=/etc/hadoop/conf because no HADOOP_CONF_DIR or HADOOP_CLASSPATH was set.
Setting HBASE_CONF_DIR=/etc/hbase/conf because no HBASE_CONF_DIR was set.
2022-01-27 16:43:43,765 INFO org.apache.flink.yarn.cli.FlinkYarnSessionCli [] - Found Yarn properties file under /tmp/.yarn-properties-hive.
2022-01-27 16:43:43,765 INFO org.apache.flink.yarn.cli.FlinkYarnSessionCli [] - Found Yarn properties file under /tmp/.yarn-properties-hive.
No default environment specified.
Searching for ‘/home/hive/flink-1.13.0/conf/sql-client-defaults.yaml’…found.
Reading default environment from: file:/home/hive/flink-1.13.0/conf/sql-client-defaults.yaml
Command history file path: /home/hive/.flink-sql-history

                               ▒▓██▓██▒
                           ▓████▒▒█▓▒▓███▓▒
                        ▓███▓░░        ▒▒▒▓██▒  ▒
                      ░██▒   ▒▒▓▓█▓▓▒░      ▒████
                      ██▒         ░▒▓███▒    ▒█▒█▒
                        ░▓█            ███   ▓░▒██
                          ▓█       ▒▒▒▒▒▓██▓░▒░▓▓█
                        █░ █   ▒▒░       ███▓▓█ ▒█▒▒▒
                        ████░   ▒▓█▓      ██▒▒▒ ▓███▒
                     ░▒█▓▓██       ▓█▒    ▓█▒▓██▓ ░█░
               ▓░▒▓████▒ ██         ▒█    █▓░▒█▒░▒█▒
              ███▓░██▓  ▓█           █   █▓ ▒▓█▓▓█▒
            ░██▓  ░█░            █  █▒ ▒█████▓▒ ██▓░▒
           ███░ ░ █░          ▓ ░█ █████▒░░    ░█░▓  ▓░
          ██▓█ ▒▒▓▒          ▓███████▓░       ▒█▒ ▒▓ ▓██▓
       ▒██▓ ▓█ █▓█       ░▒█████▓▓▒░         ██▒▒  █ ▒  ▓█▒
       ▓█▓  ▓█ ██▓ ░▓▓▓▓▓▓▓▒              ▒██▓           ░█▒
       ▓█    █ ▓███▓▒░              ░▓▓▓███▓          ░▒░ ▓█
       ██▓    ██▒    ░▒▓▓███▓▓▓▓▓██████▓▒            ▓███  █
      ▓███▒ ███   ░▓▓▒░░   ░▓████▓░                  ░▒▓▒  █▓
      █▓▒▒▓▓██  ░▒▒░░░▒▒▒▒▓██▓░                            █▓
      ██ ▓░▒█   ▓▓▓▓▒░░  ▒█▓       ▒▓▓██▓    ▓▒          ▒▒▓
      ▓█▓ ▓▒█  █▓░  ░▒▓▓██▒            ░▓█▒   ▒▒▒░▒▒▓█████▒
       ██░ ▓█▒█▒  ▒▓▓▒  ▓█                █░      ░░░░   ░█▒
       ▓█   ▒█▓   ░     █░                ▒█              █▓
        █▓   ██         █░                 ▓▓        ▒█▓▓▓▒█░
         █▓ ░▓██░       ▓▒                  ▓█▓▒░░░▒▓█░    ▒█
          ██   ▓█▓░      ▒                    ░▒█▒██▒      ▓▓
           ▓█▒   ▒█▓▒░                         ▒▒ █▒█▓▒▒░░▒██
            ░██▒    ▒▓▓▒                     ▓██▓▒█▒ ░▓▓▓▓▒█▓
              ░▓██▒                          ▓░  ▒█▓█  ░░▒▒▒
                  ▒▓▓▓▓▓▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒░░▓▓  ▓░▒█░

______ _ _       _       _____  ____  _         _____ _ _            _  BETA

| | () | | / |/ __ | | / | () | |
| |
| |
_ __ | | __ | (
| | | | | | | | |
___ _ __ | |

| | | | | ’ | |/ / _
| | | | | | | | | |/ _ \ ’
| |
| | | | | | | | < ____) | |
| | |____ | || | | _/ | | | |
|
| |
|
|
| |||_\ |/ ___| ___|||_|| ||__|

    Welcome! Enter 'HELP;' to list all available commands. 'QUIT;' to exit.

2.创建Oracle源表

create table IF NOT EXISTS ORACLE_FLINK(
  ID STRING,
  NAME STRING,
  AGE STRING,
  SEX STRING)
WITH (
'connector' =  'oracle-cdc',
'hostname' =  '127.0.0.1',
'port' =  '6045',
'username' =  'liuyun',
'password' =  '123456',
'table-name' =  'FLINK',
'schema-name' =  'LIUYUN',
'database-name' =  'xe',
'debezium.log.mining.strategy'='online_catalog',
 'debezium.log.mining.continuous.mine'='true'
);

[INFO] Execute statement succeed.

3.查询Oracle源表数据

SELECT * FROM ORACLE_FLINK;
                         ID                           NAME                            AGE                            SEX
                          7                              7                              7                              7
                          1                              1                              1                              1
                          2                              2                              2                              2
                          3                              3                              3                              3
                          4                              4                              4                              4
                          5                              5                              5                              5

4.创建HUDI表

create TABLE  ORACLE_HUDI(
id string ,
name string,
age string,
sex VARCHAR(20),
primary key(id) not enforced
)
PARTITIONED BY (sex)
with(
'connector'='hudi',
'path'= 'hdfs://bigdata/tmp/hudi/ORACLE_HUDI'
, 'table.type'= 'MERGE_ON_READ'
, 'read.streaming.enabled'= 'true'
, 'read.streaming.check-interval'= '3'
);

[INFO] Execute statement succeed.
5.把ORACLE_FLINK数据插入ORACLE_HUDI

 insert into ORACLE_HUDI select * from ORACLE_FLINK;

6.查看任务执行情况
在这里插入图片描述
7.查看ORACLE_HUDI数据是否正常

select * from ORACLE_HUDI;
                         id                           name                            age                            sex
                          3                              3                              3                              3
                          4                              4                              4                              4
                          1                              1                              1                              1
                          2                              2                              2                              2
                          7                              7                              7                              7
                          5                              5                              5                              5
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
随着互联网的发展,数据的不断膨胀,从刚开始的关系型数据库到非关系型数据库,再到大数据技术,技术的不断演进最终是随着数据膨胀而不断改变,最初的数据仓库能解决我们的问题,但是随着时代发展,企业已经不满足于数据仓库,希望有更强大的技术来支撑数据的存储,包括结构化,非结构化的数据等,希望能够积累企业的数据,从中挖掘出更大的价值。基于这个背景,数据湖的技术应运而生。本课程基于真实的企业数据湖案例进行讲解,结合业务实现数据湖平台,让大家在实践中理解和掌握数据湖技术,未来数据湖的需求也会不断加大,希望同学们抓住这个机遇。项目中将以热门的互联网电商业务场景为案例讲解,具体分析指标包含:流量分析,订单分析,用户行为分析,营销分析,广告分析等,能承载海量数据的实时分析,数据分析涵盖全端(PC、移动、小程序)应用。Apache Hudi代表Hadoop Upserts anD Incrementals,管理大型分析数据集在HDFS上的存储。Hudi的主要目的是高效减少摄取过程中的数据延迟。Hudi的出现解决了现有hadoop体系的几个问题:1、HDFS的可伸缩性限制 2、需要在Hadoop中更快地呈现数据 3、没有直接支持对现有数据的更新和删除 4、快速的ETL和建模 5、要检索所有更新的记录,无论这些更新是添加到最近日期分区的新记录还是对旧数据的更新,Hudi都允许用户使用最后一个检查点时间戳,此过程不用执行扫描整个源表的查询。 本课程包含的技术: 开发工具为:IDEA、WebStorm Flink1.9.0、HudiClickHouseHadoop2.7.5 Hbase2.2.6Kafka2.1.0 Hive2.2.0HDFS、MapReduceSpark、ZookeeperBinlog、Canal、MySQLSpringBoot2.0.2.RELEASE SpringCloud Finchley.RELEASEVue.js、Nodejs、HighchartsLinux Shell编程课程亮点: 1.与企业接轨、真实工业界产品 2.ClickHouse高性能列式存储数据库 3.大数据热门技术Flink4.Flink join 实战 5.Hudi数据湖技术6.集成指标明细查询 7.主流微服务后端系统 8.数据库实时同步解决方案 9.涵盖主流前端技术VUE+jQuery+Ajax+NodeJS 10.集成SpringCloud实现统一整合方案 11.互联网大数据企业热门技术栈 12.支持海量数据的实时分析 13.支持全端实时数据分析 14.全程代码实操,提供全部代码和资料 15.提供答疑和提供企业技术方案咨询企业一线架构师讲授,代码在老师的指导下企业可以复用,提供企业解决方案。  版权归作者所有,盗版将进行法律维权。  
Apache Flink 和 Apache Hudi 都是 Apache 软件基金会的开源项目,它们都是处理大规模数据的工具。Apache Flink 是一个分布式流处理引擎,而 Apache Hudi 是一个分布式数据湖,可以实现数据仓库中数据的更新、删除和插入。 要集成 Apache Flink 和 Apache Hudi,可以按照以下步骤进行操作: 1.下载 Apache Flink 和 Apache Hudi,将它们解压到本地文件夹。 2.启动 Apache Flink 集群。可以使用以下命令启动: ``` ./bin/start-cluster.sh ``` 3.启动 Apache Hudi。可以使用以下命令启动: ``` ./bin/start-hoodie.sh ``` 4.在代码中使用 Apache Flink 和 Apache Hudi。可以使用以下代码示例: ```java import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment; import org.apache.flink.streaming.api.functions.source.SourceFunction; import org.apache.hudi.client.HoodieWriteClient; import org.apache.hudi.client.WriteStatus; import org.apache.hudi.client.common.HoodieFlinkEngineContext; import org.apache.hudi.client.common.HoodieSparkEngineContext; import org.apache.hudi.common.model.HoodieTableType; import org.apache.hudi.common.util.CommitUtils; import org.apache.hudi.common.util.ReflectionUtils; import org.apache.hudi.common.util.TypedProperties; import org.apache.hudi.common.util.ValidationUtils; import org.apache.hudi.flink.HoodieFlinkWriteConfiguration; import org.apache.hudi.flink.HoodieFlinkWriter; import org.apache.hudi.flink.HoodieFlinkWriterFactory; import org.apache.hudi.flink.source.StreamReadOperator; import org.apache.hudi.flink.utils.CollectSink; import org.apache.hudi.flink.utils.TestConfigurations; import org.apache.hudi.flink.utils.TestData; import org.apache.hudi.flink.utils.TestDataGenerator; import org.apache.hudi.streamer.FlinkStreamer; import org.apache.kafka.clients.consumer.ConsumerRecord; import java.util.List; import java.util.Properties; public class FlinkHudiIntegrationExample { public static void main(String[] args) throws Exception { // set up the streaming execution environment final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); env.setParallelism(1); // create a Kafka source SourceFunction<ConsumerRecord<String, String>> kafkaSource = KafkaSource.<String, String>builder() .setBootstrapServers("localhost:9092") .setTopics("test_topic") .build(); // create a Hudi sink TypedProperties properties = new TypedProperties(); properties.setProperty("hoodie.datasource.write.recordkey.field", "id"); properties.setProperty("hoodie.datasource.write.partitionpath.field", "ts"); properties.setProperty("hoodie.table.name", "test_table"); properties.setProperty("hoodie.table.type", HoodieTableType.COPY_ON_WRITE.name()); properties.setProperty("hoodie.datasource.write.keygenerator.class", ReflectionUtils.loadClass( "org.apache.hudi.keygen.SimpleKeyGenerator").getName()); properties.setProperty("hoodie.datasource.write.payload.class", ReflectionUtils.loadClass( "org.apache.hudi.example.data.SimpleJsonPayload").getName()); properties.setProperty("hoodie.datasource.write.hive_style_partitioning", "true"); HoodieFlinkWriteConfiguration writeConfig = HoodieFlinkWriteConfiguration.newBuilder() .withProperties(properties) .build(); HoodieFlinkWriter<ConsumerRecord<String, String>> hudiSink = HoodieFlinkWriterFactory.<ConsumerRecord<String, String>>newInstance() .writeConfig(writeConfig) .withEngineContext(new HoodieFlinkEngineContext(env)) .build(); // add the Kafka source and Hudi sink to the pipeline env.addSource(kafkaSource) .map(new StreamReadOperator()) .addSink(hudiSink); // execute the pipeline env.execute("Flink Hudi Integration Example"); } } ``` 这个代码示例展示了如何在 Apache Flink 中使用 Apache Hudi。它使用 Kafka 作为数据源,将数据写入到 Hudi 表中。 以上就是集成 Apache Flink 和 Apache Hudi 的步骤。需要注意的是,集成过程中可能会遇到一些问题,需要根据具体情况进行解决。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

嘎子吱吱吱吱

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值