hadoop（番外）——mongodb-hadoop（基础配置）

最新推荐文章于 2024-07-29 18:01:05 发布

zz60708320

最新推荐文章于 2024-07-29 18:01:05 发布

阅读量1.5k

点赞数 1

分类专栏： hadoop 文章标签： hadoop-mongo

本文链接：https://blog.csdn.net/zz60708320/article/details/102722361

版权

本文介绍了MongoDB-Hadoop连接器的基础配置，包括如何从MongoDB实时集群和BSON转储中读取数据，以及如何写入数据。它支持Hadoop 1.X和2.X，Hive 1.1，Pig 0.11，Spark 1.4，MongoDB 2.2。文章详细讲解了Building过程，配置参考，如输入输出选项，分割选项，并列出了一些使用限制和注意事项。

摘要由CSDN通过智能技术生成

简介

mongo-hadoop是用于Hadoop的MongoDB连接器是一个库，该库允许将MongoDB（或其数据格式的备份文件，BSON）用作Hadoop MapReduce任务的输入源或输出目标。它旨在提供更大的灵活性和性能，并使MongoDB中的数据与Hadoop生态系统的其他部分轻松集成。
下载地址：https://github.com/mongodb/mongo-hadoop 跳转→

特点：

可以创建数据拆分以读取独立配置，副本集或分片配置
可以使用MongoDB查询语言通过查询过滤源数据
支持Hadoop流，以允许以任何语言（当前支持python，ruby，nodejs）编写作业代码
可以从S3，HDFS或本地文件系统上驻留的MongoDB备份文件中读取数据
可以以.bson格式写出数据，然后可以使用mongorestore命令将其导入到任何MongoDB数据库中
与其他Hadoop工具（例如Pig和Hive）中的 BSON / MongoDB文档一起使用。

使用要求
Hadoop 1.X：1.2
Hadoop 2.X：2.4
Hive：1.1
Pig：0.11
Spark：1.4
MongoDB：2.2
依存关系
您必须至少安装MongoDB Java驱动程序3.0.0版才能使用Hadoop连接器。（mongodb-driver-3.0.0 以上）

使用方法

Building

运行./gradlew jar命令进行编译，创建 jar 包。编译完成后会在core/build/libs目录下生成Jar包。
将生成的 jar 包与java连接mongo的驱动一起复制到hadoop集群中每个节点上的lib目录中。这通常是以下目录之一，取决于hadoop版本：

$HADOOP_PREFIX/lib/
$HADOOP_PREFIX/share/hadoop/mapreduce/
$HADOOP_PREFIX/share/hadoop/lib/

配置参考

1、输入和输出选项
配置连接器读取和写入MongoDB或BSON的方式。
- mongo.job.input.format
  要使用的InputFormat类。MongoDB Hadoop连接器提供了两个：MongoInputFormat和BSONFileInputFormat，分别用于从实时MongoDB集群和BSON转储中读取数据。
- mongo.job.output.format
  要使用的OutputFormat类。MongoDB Hadoop连接器提供两个：MongoOutputFormat和BSONFileOutputFormat用于分别写入实时MongoDB集群和BSON文件。
- mo