spark streaming 结合kafka 精确消费一次将结果保存到hbase

最新推荐文章于 2022-07-03 20:34:49 发布

闻香识代码

最新推荐文章于 2022-07-03 20:34:49 发布

阅读量969

点赞数

分类专栏：大数据 spark hbase 文章标签： spark streaming kafka hbase 大数据

本文链接：https://blog.csdn.net/xiaohu21/article/details/110757083

版权

本文介绍了如何在Scala环境下，利用Spark Streaming精确消费Kafka消息，并将处理结果保存到HBase数据库。涉及的技术栈包括Spark 3.0.1、Kafka 0.10、Hadoop 3.2.1和HBase 2.2.5。文章提供了一个包含查询偏移量工具类和HBase操作的案例代码。

摘要由CSDN通过智能技术生成

spark streaming 结合kafka 精确消费一次将结果保存到hbase

1. 环境

scala 2.12.12
jdk 1.8
idea 2020.1
maven 3.6.3
spark 3.0.1
kafka 0.10
hadoop 3.2.1
hbase 2.2.5 （另外一个明细数据幂等处理，保存到habse）
redis 5.0
pom

<!-- 定义了一些常量 -->
    <properties>
        <maven.compiler.source>1.8</maven.compiler.source>
        <maven.compiler.target>1.8</maven.compiler.target>
        <scala.version>2.12.12</scala.version>
        <spark.version>3.0.1</spark.version>
        <hbase.version>2.2.5</hbase.version>
        <hadoop.version>3.2.1</hadoop.version>
        <encoding>UTF-8</encoding>
    </properties>

    <dependencies>
        <!-- 导入scala的依赖 -->
        <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-library</artifactId>
            <version>${scala.version}</version>
        </dependency>

        <!-- 导入spark streaming的依赖-->
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming_2.12</artifactId>
            <version>${spark.version}</version>
        </dependency>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming-kafka-0-10_2.12</artifactId>
            <version>${spark.version}</version>
        </dependency>

        <dependency>
            <groupId>mysql</groupId>
            <artifactId>mysql-connector-java</artifactId>
            <version>5.1.49</version>
        </dependency>

        <dependency>
            <groupId>redis.clients</groupId>
            <artifactId>jedis</artifactId>
            <version>3.3.0</version>
        </dependency>

        <dependency>
            <groupId>com.alibaba</groupId>
            <artifactId>fastjson</artifactId>
            <version>1.2.73</version>
        </dependency>

        <!-- -->
        <dependency>
            <groupId>com.alibaba</groupId>
            <artifactId>druid</artifactId>
            <version>1.1.23</version>
        </dependency>

        <!-- 导入Hadoop依赖 -->
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>${hadoop.version}</version>
        </dependency>

        <!-- Hbase Client -->
        <dependency>
            <groupId>org.apache.hbase</groupId>
            <artifactId>hbase-client</artifactId>
            <version>${hbase.version}</version>
            <!-- 排除不需要的或冲突的jar包 -->
            <exclusions>
                <exclusion>
                    <groupId