从Mysq了中导入数据到Elasticsearch中

公司业务在中途由于数据库的压力,要将之前的搜索从DB中查询修改为Elasticsearch中

想法是提供jar 在数据新增和修改的地方调用jar中方法,写入kafka中,再使用consumer 写入ES,为了不造成数据重复,使用主键ID做upert操作

目前流程已经开发完成,查询接口和分词都完成,最后工作是将历史数据从DB中(MYSQL)中最终写入到ES中

有三种方案 :

第一种:写程序,链接MYSQL,批量的写入kakfa中,后续在现有逻辑已经完成,可以好low啊 而且麻烦

第二种:使用kafka的connect 从 mysql 导入 kafka ,kafka的consumer 程序写入ES中

第三种:直接从数据库中写入 ES中,最直接 最省事

直接使用第三种:

 查询第三种方案认为靠谱的实现方式有两种

A 使用ElasticSearch-jdbc 组件

B:使用logstash-jdbc 插件

一开始个人认为 elasticsearch-jdbc 会简单一点

安装 elasticsearch-jdbc  最新版本是 elasticsearch-jdbc-2.3.4.1

写脚本:

LIB=/usr/elasticsearch-jdbc-2.3.4.1/lib
BIN=/usr/elasticsearch-jdbc-2.3.4.1/bin/

echo "lib path : ${LIB}"
echo "bin path : ${BIN}"


echo ' {
    "type" : "jdbc",
    "jdbc" : {
        "elasticsearch.cluster":"motor-application",
        "url" : "jdbc:mysql://10.33.96.213:3306/motor",
        "user" : "root",
        "password" : "123456",
        "sql" :  "SELECT id AS _id,id,title,intro,autherid,logo,background,view,fans,sort,score,dynamic,recommend_flag AS recommendFlag,recommend_sort AS recommendSort,status,unix_timestamp(create_date) AS createDate ,unix_timestamp(update_date) AS updateDate  FROM motor_short_topic",
        "treat_binary_as_string" : true,
        "elasticsearch" : {
             "host" : "192.168.136.145",
             "port" : 9300
        },
        "index" : "motor_fans_short_topic",
        "type" : "motor_fans_short_topic"
      }
}' | java \
        -cp "${LIB}/*" \
        -Dlog4j.configurationFile="${BIN}\log4j2.xml" \
        "org.xbib.tools.Runner" \
        "org.xbib.tools.JDBCImporter"

将该文件命名为 es-mysql-import.sh

创建该文件之后是没有可执行权限的 修改 chmod  777 es-mysql-import.sh

执行出现各种错误

错误1:elasticsearch 无可用节点 请检查elasticsearch 的族群名称是否正确

错误2:无法加载执行主类:org.xbib.tools.Runner   请检查路径 红色标注部分

折腾了大半天,还是没法完成,后来实在没办法估计是版本问题,Elasticsearch版本已经是6.0版本,最新的jdbc是2.3.4.1

所有打算另找解决办法

采用logstash-jdbc:

如何安装logstash-input-jdbc插件
首先 logstash-input-jdbc 是 logstash的插件,需要先安装logstash

wget https://artifacts.elastic.co/downloads/logstash/logstash-6.0.0.zip

解压: unzip logstash-6.0.0.zip

logstash-2.3.4/bin 下执行  ./logstash -e ""

输入hello 输出如下 表示 安装成功:

安装 logstash-input-jdbc 插件

logstash-input-jdbc插件是logstash 的一个个插件

使用ruby语言开发。下载插件过程中最大的坑是下载插件相关的依赖的时候下不动,因为国内网络的原因,访问不到亚马逊的服务器。解决办法,改成国内的ruby仓库镜像。此镜像托管于淘宝的阿里云服务器上 :

如果没有安装 gem 的话 安装gem 

sudo yum install gem
1,gem sources --add https://ruby.taobao.org/ --remove https://rubygems.org/
2,gem sources -l

*** CURRENT SOURCES ***

https://ruby.taobao.org
# 请确保只有 ruby.taobao.org
如果 还是显示 https://rubygems.org/ 进入 home的 .gemrc 文件
sudo vim ~/.gemrc 
手动删除 https://rubygems.org/
2, 修改Gemfile的数据源地址。步骤:

1, whereis logstash # 查看logstash安装的位置, 我的在 /opt/logstash/ 目录
2, sudo vi Gemfile # 
修改 source 的值 为: "https://ruby.taobao.org"
3, sudo vi Gemfile.jruby-1.9.lock # 找到 remote 修改它的值为: https://ruby.taobao.org 
或者直接替换源这样你不用改你的 Gemfile 的 source。

sudo gem install bundler
$ bundle config mirror.https://rubygems.org https://ruby.taobao.org
安装logstash-input-jdbc 

我一共试了三种方法,一开始都没有成功,原因如上,镜像的问题。一旦镜像配置成淘宝的了,理论上随便选择一种安装都可以成功,我用的是第三种。

cd /opt/logstash/

sudo bin/plugin install logstash-input-jdbc

如果成功就成功了。
以上之后 logstash 和 logstash -input -jdbc 插件安装完成

准备 执行脚本: 本人在 logstash-6.0.0下新建conf 文件夹 其中保存了执行的sql脚本和 input的执行脚本文件

分别是 jdbc.sql 和 jdbc.conf文件

文件内容如下:

jdbc.sql:

SELECT id AS _id,
    id,title,intro,autherid,logo,background,view,fans,sort,score,dynamic,
    recommend_flag AS recommendFlag,recommend_sort AS recommendSort,status,
    unix_timestamp(create_date) AS createDate ,unix_timestamp(update_date) AS updateDate
    FROM motor_short_topic

jdbc.conf:

input {
    stdin {
    }
    jdbc {
      jdbc_connection_string => "jdbc:mysql://10.33.96.213:3306/motor"
      jdbc_user => "root"
      jdbc_password => "123456"
      jdbc_driver_library => "/usr/logstash-6.0.0/lib/mysql-connector-java-5.1.38.jar"
      jdbc_driver_class => "com.mysql.jdbc.Driver"
      jdbc_paging_enabled => "true"
      jdbc_page_size => "50000"
      statement_filepath => "/usr/logstash-6.0.0/conf/jdbc.sql"
      schedule => "* * * * *"
      type => "motor_fans_short_topic"
    }
}

filter {
    json {
        source => "message"
        remove_field => ["message"]
    }
}

output {
    elasticsearch {
        hosts => "192.168.136.128:9200"
       # port => "9300"
       # protocol => "http"
        index => "motor_fans_short_topic"
        document_id => "%{id}"
       # cluster => "motor-application"
    }
    stdout {
        codec => json_lines
    }
}

需要注意的是 你需要根据你的数据库类型 将对应的数据库驱动上传到相应位置,然后配置数据库的信息

另外 elasticsearch 的在网上低版本的配置都是 host 和 port 在高版本中修改为了 hosts 了 和ElasticSearch版本配置是同步的,其他注意端口号是 9200 不是 http端口号 9300,根据你的Elasticsearch配置修改

以上工作做完之后 就可以 准备导入数据了

./bin/logstash -f conf/jdbc.conf
执行之后,会将数据库中的数据导入到Elasticsearch中

本人在该过程中参考了  http://blog.csdn.net/yeyuma/article/details/50240595#quote 这个帖子,在总结的也是从中考取部分文章,安装logstash-input-jdbc 插件的过程请参考该文章,写的十分详细
 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值