近来一直focus在构建ETL数据中心这块,需要把Hbase的若干张表数据实时同步到ElasticSearch中,调研了一段时间,在网上可参考无非就那几篇文档:
3. Hbase官方文档。
4. ElasticSearch Java API
最终选择使用Coprocessor实现,根据第二篇资料可以很快的做出一个能运行的DEMO,此时欣喜若狂,没想到这是万里长征的开始。
总归一句话,问题很多:
- 如何支持多表共用一个同步Jar包。
- 如何持续稳定的与ES交互,写入数据。
- 如何把Coprocessor的侵入性给Hbase带来的宕机风险降到最低。
- 如何高效的实现同步。
为了逐一解决这些问题,吃了不少苦头,分三篇文章分享给大家。