史上最简单的spark教程第二十章-spark实时处理数据并且写入外部MySQL,Java代码案例

25 篇文章 10 订阅
24 篇文章 32 订阅

sparkStreaming输出操作

史上最简单的spark教程
所有代码示例地址:https://github.com/Mydreamandreality/sparkResearch

(提前声明:文章由作者:张耀峰 结合自己生产中的使用经验整理,最终形成简单易懂的文章,写作不易,转载请注明)
(文章参考:Elasticsearch权威指南,Spark快速大数据分析文档,Elasticsearch官方文档,实际项目中的应用场景)
(帮到到您请点点关注,文章持续更新中!)
Git主页 https://github.com/Mydreamandreality


什么是输出操作:?

  • 输出操作是针对流数据经过转化操作后得到数据要执行的操作
  • 输出操作和RDD的惰性求值是一样的道理,如果Dstream没有被执行输出操作 ,那么Dstream就都不会被求值
  • 我们之前使用的print()就是一种调试性输出
  • Dstream有spark类似的save()的操作

saveAsHadoopFiles()函数的使用

  • 代码案例
  • 比如我现在需要存到Sequence{hadoop常用的文件格式}中,但是Java中没有saveSequence这个参数啊,所以我们可以直接使用saveAsHadoopFiles()函数

代码案例:

result.saveAsHadoopFiles("outputDir","txt",Text.class,LongWritable.class,outFormat.class);

class outFormat extends SequenceFileOutputFormat<Text, LongWritable> { }

foreachRDD 将数据发送到外部系统

  • dstream.foreachRDD允许我们把数据发送到外部系统
  • 一般我们都是在foreachRDD中创建数据库驱动连接,比如MySQL,Redis,Elasticsearch等等,然后通过驱动后写入外部
  • 但是:::::这种方式的误区有太多太多了

在这里插入图片描述

  • 上面这个是foreachRDD的源码,我们可以看内层还有一个循环
  • 那么这个时候我们把我们的创建数据库驱动放到外层中,这样会导致connection被序列化之后传输到task中,rdd是分布式的,所以有些spark工作的线程就会报驱动器未初始化的异常
  • 那如果你放到内层中,worker中呢,那你每个批处理Dstream都会创建一个驱动器连接,直接导致sparkStreaming效率低下,我们要知道,驱动器的创建是很消耗资源的

目前比较好的一种解决办法就是静态资源池,官网建议的是采用懒创建的方式

部分代码案例:[完整代码移步GitHub]
先定义我们的静态资源池
package tools;

import java.sql.Connection;
import java.sql.DriverManager;
import java.util.LinkedList;

/**
 * Created by 張燿峰
 * 静态资源池
 *
 * @author 孤
 * @date 2019/4/16
 * @Varsion 1.0
 */
public class ConnectionPool {

    private static LinkedList<Connection> connectionQueue;

    static {
        try {
            Class.forName("com.mysql.jdbc.Driver");
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

    public synchronized static Connection getConnection() {
        try {
            if (connectionQueue == null) {
                connectionQueue = new LinkedList<>();
            }
            for (int i = 0; i < 10; i++) {
                Connection conn = DriverManager.getConnection("jdbc:mysql://spark1:3307/test", "root", "root");
                connectionQueue.push(conn);
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
        return connectionQueue.poll();
    }

    /**
     * return push connection
     *
     * @param conn this connection
     */
    public static void returnConnection(Connection conn) {
        connectionQueue.push(conn);
    }
}

使用foreachRDD写出数据到外部数据源[MySQL]
        result.foreachRDD(rdd -> {
            rdd.foreachPartition(partitionOfRecords -> {
                Connection connection = ConnectionPool.getConnection();
                Tuple2<String, Integer> wordCount;

                while (partitionOfRecords.hasNext()) {
                    wordCount = partitionOfRecords.next();
                    String sql = "insert into wordcount(word,count) " + "values('" + wordCount._1 + "',"
                            + wordCount._2 + ")";
                    Statement stmt = connection.createStatement();
                    stmt.executeUpdate(sql);
                }
                ConnectionPool.returnConnection(connection);
            });
        });

        try {
            streamingContext.start();
            streamingContext.awaitTermination();
            streamingContext.close();
        } catch (InterruptedException e) {
            e.printStackTrace();
        }

如果各位还有更优的方法,请留言交流,
完整代码在Git,地址:
https://github.com/Mydreamandreality/sparkResearch

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值