datax从hive导入ES

hadoop2.7
elasticsearch7.7.0

原理: 读取hdfs数据,写入es。hive表支持textfile , orc 格式。

1、下载datax:
http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz

2、解压到服务器
tar -zvxf datax.tar.gz .

3、下载 elasticsearchwriter 插件
把插件放入datax/plugin/writer/ 下。

4、修改并运行json文件。
python /opt/datax/bin/datax.py --jvm="-Xms1024m -Xmx1562m -XX:MaxDirectMemorySize=64m -XX:-UseGCOverheadLimit" -p "-Dpar_date=20210101" /opt/scripts/datax_export/cust_info.json


5、注意:
es无密码时,accessId accessKey 随便定义,但不能为空。

6、处理问题
json示例中处理了,
1、字段超过1000。 Limit of total fields [1000] in index [cust_info_20210101] has been exceeded
2、处理setting不可用。
"number_of_replicas":2,                           数据备份数
"number_of_shards":10,                            数据分片数

"mapping":{"total_fields":{"limit":2000}},        设置字段个数2000
"refresh_interval":-1                             设置为-1,导入完成后修改。POST inx_name/_refresh,提高传输效率。


7、自己测试通过
有datax包(官方下载的)、ES写入插件包(也可以自己打包)、json示例
链接:https://pan.baidu.com/s/1kLoqyVYK9IeH9oqCz_-Mbw 
提取码:pxf1
 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值