内存管理-分段加载查询数据调研

目录

 

1 背景

2 JDBC

2.1 jdbc协议

2.2 数据查询-JDBC实现

2.2.1 Mysql

3 使用游标分批获取数据

3.2 Mysql&Doris

3.3 Kylin

4 Spring jdbcTemplates

8 结论

9 参考资料


1 背景

在处理天璇大查询的过程中,遇到一些问题:

  • 哪些数据库能够实现分批加载(MySQL、Doris、Kylin)?

  • 非JDBC的如何实现

  • 在不同的实现模式(原生驱动和jdbcTemplates以及zebra)下,具体如何使用(哪些必要条件,哪些方式,原理是什么)才能实现分批加载。

带着这些疑惑,进行了如下的一些探查。

2 JDBC

2.1 jdbc协议

何为jdbc,JDBC,是一种用于Java编程语言和多种数据库连接的标准Java API

 

体现在代码层面就是在java.sql包中的一些接口:

  • DriverManager:该类被用于管理数据库驱动。当Java应用发送一个数据库连接请求时,会伴随一个对应数据库的驱动连接子协议。这个协议会通过DriverManager发送到各个Driver,而第一个识别该协议的Dirver会在对应的数据库和JDBC接口间建立连接。

  • Driver:驱动接口负责处理与数据库服务器之间的通信。Java编程人员很少会直接使用到这个接口,这是用于DriverManager类在管理着Driver接口。

  • Connection:这个接口包含了所有连接数据库相关的方法。一个connection对象会包含了和数据库通信的上下文等信息。所有与数据库相关的通信都且仅需要通过connection对象。

  • Statement:该接口负责将Java代码中嵌入的SQL语句提交到数据库,另外还有一些派生出的接口可以完成参数的传递和存储过程的执行。

  • ResultSet:通过Statement对象执行的查询语句的查询结果将被通过ResultSet对象从数据库取回。ResultSet对象可以像迭代器一样去操作数据。

  • SQLException:这个类用来处理数据库应用中出现的各种错误。

 

2.2 数据查询-JDBC实现

2.2.1 Mysql

一般就是各数据库厂商提供的驱动,接下来以MySQL为例进行分析。

驱动包 mysql-connector-java,该驱动包就有上述的JDBC实现。

接下来我们从一个简单的数据库查询过程来看该实现的过程。

        String driver= "com.mysql.jdbc.Driver";useCursorFetch=true&defaultFetchSize=50
        String url = "jdbc:mysql://host:port/database?useCursorFetch=true&defaultFetchSize=50";
        Connection con;
        String user = "xxx";
        String password = "yyy";
        try {
            Class.forName(driver);
            con = DriverManager.getConnection(url, user, password);
            Statement statement = con.createStatement();
//            Statement statement = con.createStatement(ResultSet.TYPE_SCROLL_INSENSITIVE,ResultSet.CONCUR_READ_ONLY);
            String sql = "select *  from dw_column";//我的表格叫persons
            ResultSet resultSet = statement.executeQuery(sql);

            while (resultSet.next()){
                resultSet.last();
                System.out.println("行数" + resultSet.getRow());
                System.out.println(resultSet.getString("column_name"));
                System.out.println("hah");
            }
            System.out.println("哈哈");
            resultSet.close();
            con.close();
        } catch (ClassNotFoundException e) {
            e.printStackTrace();
        } catch (SQLException e) {
            e.printStackTrace();
        }
  1. Class.forName(driver);
    在MySQL的Driver类中有如下静态代码,实现了在加载类的同时将驱动注入到Manager中,也因此能够使用DriverMangager获取Connection。

     static {
            try {
                java.sql.DriverManager.registerDriver(new Driver());
            } catch (SQLException E) {
                throw new RuntimeException("Can't register driver!");
            }
        }

     

  2. Connection
    MySQL驱动获取到的Connection实现是

  3. statement的实现是StatementImpl.java

     

3 使用游标分批获取数据

JDBC在提供了相关的设置,useCursorFetch、defaultFetchSize。

当然这些要生效必须在这resultSetType和resultSetConcurrency两个配置项处在对应的模式

Connection.createStatement(int resultSetType,int resultSetConcurrency)

// todo 这两个配置项的可选值和含义。

只有resultSetType=1003、resultSetConcurrency=1007时,fetchSize才能生效,生效时,result不能使用resultSet.last()方法,会提示“UNsupport operation”

非fetchSize模式下,数据会一次全部加载到ResultSet中,可以使用last。(利用这个可以获取总行数)

 

具体的实现依赖于各数据库厂商的驱动。

3.2 Mysql&Doris

MySQL和Doris在jdbc查询方面一样

对于MySQL而言,最终需要在StatementImpl中需要设置了defaultFetchSize属性。

 

在StatementImpl中有如下构造函数,会从Connection中获取这些配置参数

这些参数附在jdbcUrl上或者在代码中设置都是可以的(设置Connection或者Statement都是可以的,最终都会体现在Statement)

 int defaultFetchSize = this.connection.getDefaultFetchSize();
            if (defaultFetchSize != 0) {
                this.setFetchSize(defaultFetchSize);
            }

在jdbc上附上以上两个参数之后,使用2.2章节中的测试代码测试后可以发现,

jdbc4ResultSet --> rowData 中有个fetchedRows属性,这个就是分批取出来的数据,在没有next的之后此属性是null,当游标往后移动的时候,此时fetchedRows就会有值。

 

3.3 Kylin

public AvaticaStatement createStatement(int resultSetType, int resultSetConcurrency, int resultSetHoldability) throws SQLException {
        return super.createStatement(resultSetType, resultSetConcurrency, resultSetHoldability);
    }

从Kylin jdbc jar包来看,Kylin是支持的分批获取的。

还需要更加具体的测试

 

4 Spring jdbcTemplates

jdbcTemplates,底层也是调用驱动包的实现类,来创建Connection和Statement,只是再上面一层又封装了一层。jdbcTemplates的主要目的是封装了对查询后数据的处理。

queryForList方法,内部是采用了fetchSize的模式,逐条转化为List的元素

queryForRowSet,对外输出类似ResultSet sqlRowSet,但是sqlRowSet虽然内部封装了个ResultSet,但是却不是原始的ResultSet,而是逐条处理之后的ReusltSet,所以sqlRowSet是全量数据集。

在满足必要条件和配置了fetchSize后,jdbcTemplates诸多方法的内部是分批获取数据的,只是jdbcTemplates对外提供都是整个结果集。

调用链如下所示:

SqlRowSetResultSetExtractor
	createSqlRowSet
		ResultSetWrappingSqlRowSet
			CachedRowSetImpl.populate(rs); // 该方法会逐条处理ResultSet。
      	 while(var1.next()) 。。。

 

8 结论

  1. MySQL数据源原生支持分批加载到JVM,必须满足resultSetType=1003、resultSetConcurrency=1007条件,然后配置useCursorFetch=true&defaultFetchSize=50即可。

  2. spring 的jdbcTemplates提供的方法返回的都是含有所有数据的结果集,虽然其内部是分批获取,但对外是一次性的提供数据

  3. 【TODO】其他类型的数据源待继续调研

 

9 参考资料

https://my.oschina.net/yibuliushen/blog/887509

https://www.cnblogs.com/benwu/articles/9126972.html

https://blog.csdn.net/shb_derek1/article/details/8105935

https://zhuanlan.zhihu.com/p/47390514

https://my.oschina.net/liuyuanyuangogo/blog/330196

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值