hadoop(番外)——mongodb-hadoop(基础配置)

本文介绍了MongoDB-Hadoop连接器的基础配置,包括如何从MongoDB实时集群和BSON转储中读取数据,以及如何写入数据。它支持Hadoop 1.X和2.X,Hive 1.1,Pig 0.11,Spark 1.4,MongoDB 2.2。文章详细讲解了Building过程,配置参考,如输入输出选项,分割选项,并列出了一些使用限制和注意事项。
摘要由CSDN通过智能技术生成

简介

mongo-hadoop是用于Hadoop的MongoDB连接器是一个库,该库允许将MongoDB(或其数据格式的备份文件,BSON)用作Hadoop MapReduce任务的输入源或输出目标。它旨在提供更大的灵活性和性能,并使MongoDB中的数据与Hadoop生态系统的其他部分轻松集成。
下载地址:https://github.com/mongodb/mongo-hadoop 跳转→

特点:

  • 可以创建数据拆分以读取独立配置,副本集或分片配置
  • 可以使用MongoDB查询语言通过查询过滤源数据
  • 支持Hadoop流,以允许以任何语言(当前支持python,ruby,nodejs)编写作业代码
  • 可以从S3,HDFS或本地文件系统上驻留的MongoDB备份文件中读取数据
  • 可以以.bson格式写出数据,然后可以使用mongorestore命令将其导入到任何MongoDB数据库中
  • 与其他Hadoop工具(例如Pig和Hive)中的 BSON / MongoDB文档一起使用。

使用要求
Hadoop 1.X:1.2
Hadoop 2.X:2.4
Hive:1.1
Pig:0.11
Spark:1.4
MongoDB:2.2
依存关系
您必须至少安装MongoDB Java驱动程序3.0.0版 才能使用Hadoop连接器。(mongodb-driver-3.0.0 以上)

使用方法

Building

运行./gradlew jar命令进行编译,创建 jar 包。编译完成后会在core/build/libs目录下生成Jar包。
将生成的 jar 包与java连接mongo的驱动一起复制到hadoop集群中每个节点上的lib目录中。这通常是以下目录之一,取决于hadoop版本:

$HADOOP_PREFIX/lib/
$HADOOP_PREFIX/share/hadoop/mapreduce/
$HADOOP_PREFIX/share/hadoop/lib/
配置参考
  • 1、输入和输出选项
    配置连接器读取和写入MongoDB或BSON的方式。
    • mongo.job.input.format
      要使用的InputFormat类。MongoDB Hadoop连接器提供了两个:MongoInputFormat和BSONFileInputFormat,分别用于从实时MongoDB集群和BSON转储中读取数据。

    • mongo.job.output.format
      要使用的OutputFormat类。MongoDB Hadoop连接器提供两个:MongoOutputFormat和BSONFileOutputFormat用于分别写入实时MongoDB集群和BSON文件。

    • mo

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值