Point 1:什么是Sqoop?
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
Point 2:Sqoop的特征
Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
对于某些NoSQL数据库它也提供了连接器。Sqoop,类似于其他ETL工具,使用元数据模型来判断数据类型并在数据从数据源转移到Hadoop时确保类型安全的数据处理。Sqoop专为大数据批量传输设计,能够分割数据集并创建Hadoop任务来处理每个区块。
Point 3:Sqoop的架构
Point 4:Sqoop的工具版本
sqoop主要通过JDBC和关系数据库进行交互。理论上支持JDBC的database都可以使用sqoop和hdfs进行数据交互。
但是,只有一小部分经过sqoop官方测试,如下&

Sqoop 是一个用于Hadoop与传统数据库间数据传递的开源工具,支持数据导入导出,使用元数据处理类型安全的数据。它提供JDBC交互,支持多种数据库,如MySQL、Oracle和PostgreSQL。尽管通过JDBC工作,但为了性能, Sqoop 提供了直接加载机制。在使用时需要注意数据分布、直接加载的限制和增量导入策略。
最低0.47元/天 解锁文章
975

被折叠的 条评论
为什么被折叠?



