datax从hive导入ES

zh_s_z

已于 2022-05-07 10:02:41 修改

阅读量1.4k

点赞数

分类专栏： ETL 文章标签： hdfs elasticsearch hadoop datax

于 2022-02-11 18:23:14 首次发布

本文链接：https://blog.csdn.net/zh_s_z/article/details/122885901

版权

ETL 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

hadoop2.7
elasticsearch7.7.0

原理：读取hdfs数据，写入es。hive表支持textfile , orc 格式。

1、下载datax：
http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz

2、解压到服务器
tar -zvxf datax.tar.gz .

3、下载 elasticsearchwriter 插件
把插件放入datax/plugin/writer/ 下。

4、修改并运行json文件。
python /opt/datax/bin/datax.py --jvm="-Xms1024m -Xmx1562m -XX:MaxDirectMemorySize=64m -XX:-UseGCOverheadLimit" -p "-Dpar_date=20210101" /opt/scripts/datax_export/cust_info.json

5、注意：
es无密码时，accessId accessKey 随便定义，但不能为空。

6、处理问题
json示例中处理了，
1、字段超过1000。 Limit of total fields [1000] in index [cust_info_20210101] has been exceeded
2、处理setting不可用。
"number_of_replicas":2, 数据备份数
"number_of_shards":10, 数据分片数

"mapping":{"total_fields":{"limit":2000}}, 设置字段个数2000
"refresh_interval":-1 设置为-1,导入完成后修改。POST inx_name/_refresh，提高传输效率。

7、自己测试通过
有datax包(官方下载的)、ES写入插件包(也可以自己打包)、json示例
链接：https://pan.baidu.com/s/1kLoqyVYK9IeH9oqCz_-Mbw
提取码：pxf1

zh_s_z

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
datax从hive导入ES

hadoop2.7elasticsearch7.7.01、下载datax：http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz2、解压到服务器tar -zvxf datax.tar.gz .3、下载 elasticsearchwriter 插件把插件放入datax/plugin/writer/ 下。4、修改并运行json文件。python /opt/datax/bin/datax.py --jvm="-X
复制链接

扫一扫

专栏目录