hadoop2.7
elasticsearch7.7.0
原理: 读取hdfs数据,写入es。hive表支持textfile , orc 格式。
1、下载datax:
http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz
2、解压到服务器
tar -zvxf datax.tar.gz .
3、下载 elasticsearchwriter 插件
把插件放入datax/plugin/writer/ 下。
4、修改并运行json文件。
python /opt/datax/bin/datax.py --jvm="-Xms1024m -Xmx1562m -XX:MaxDirectMemorySize=64m -XX:-UseGCOverheadLimit" -p "-Dpar_date=20210101" /opt/scripts/datax_export/cust_info.json
5、注意:
es无密码时,accessId accessKey 随便定义,但不能为空。
6、处理问题
json示例中处理了,
1、字段超过1000。 Limit of total fields [1000] in index [cust_info_20210101] has been exceeded
2、处理setting不可用。
"number_of_replicas":2, 数据备份数
"number_of_shards":10, 数据分片数
"mapping":{"total_fields":{"limit":2000}}, 设置字段个数2000
"refresh_interval":-1 设置为-1,导入完成后修改。POST inx_name/_refresh,提高传输效率。
7、自己测试通过
有datax包(官方下载的)、ES写入插件包(也可以自己打包)、json示例
链接:https://pan.baidu.com/s/1kLoqyVYK9IeH9oqCz_-Mbw
提取码:pxf1