pyspark 读写es和mysql

不吃天鹅肉

已于 2023-05-12 11:43:24 修改

阅读量1k

点赞数

文章标签： elasticsearch 大数据 spark

于 2022-09-02 19:17:58 首次发布

本文链接：https://blog.csdn.net/weixin_45621200/article/details/126668834

版权

读写es

spark 读 es

    properties = {
        'es.nodes.wan.only': True,
        'es.nodes': "host:port,host:por,host:por",
        'es.port': 9202,
        'es.net.http.auth.user': 'user',
        'es.net.http.auth.pass': 'pass',
        'es.batch.size.entries': 10000,
        'es.batch.size.bytes': 200 * 1024 * 1024
    }
    df = spark.read.format('es').options(**properties).load('hive_table').show()

spark 写 es

    properties = {
        'es.nodes.wan.only': True,
        'es.nodes': "host:por,host:por,host:por",
        'es.port': 9202,
        'es.net.http.auth.user': 'user',
        'es.net.http.auth.pass': 'pass',
        'es.batch.size.entries': 10000,
        'es.batch.size.bytes': 200 * 1024 * 1024
    }
    df = spark.read.format('es').options(**properties).load('hive_table').show()
    df.write.format('org.elasticsearch.spark.sql').options(**properties ).mode('append').save("hive_table")

es相关参数
官网
 参考

读写mysql

网上常规的读取mysql方法

prop = {'user': user,
        'password': password,
        'driver': 'com.mysql.cj.jdbc.Driver'}

spark = SparkSession.builder.enableHiveSupport().getOrCreate()

df = spark.read.jdbc(
      f'jdbc:mysql://{host}:{port}/database?useSSL=false&serverTimezone=GMT%2B8&useUnicode=true&characterEncoding=utf8',
      'table_name', properties=prop)

但是这样会有一个问题，会直接把mysql的全表读取进内存，之后才能再使用df.filter或df.where的方法进行过滤，万一mysql的数据量很大，那就明显得不偿失。

按照sql进行读取（网上很少）

prop = {'user': user,
      'password': password,
      'driver': 'com.mysql.cj.jdbc.Driver',
      'url': f'jdbc:mysql://{host}:{port}/?useSSL=false&serverTimezone=GMT%2B8&useUnicode=true&characterEncoding=utf8',
      'query': 'select * from table where confirm_flag=1'}

spark = SparkSession.builder.config('spark.sql.hive.convertMetastoreParquet', False).enableHiveSupport().getOrCreate()

df = spark.read.format('jdbc').options(**prop).load()