CC00058.hadoop——|Hadoop&Hadoop常用命令.V00|——|Hadoop生态圈v00|常用命令|

一、常用命令
序号命令说明
1importImportTool将数据导入到集群
2exportExportTool将集群数据导出
3codegenCodeGenTool获取数据库中某张表数据生成Java并打包Jar
4create-hive-tableCreateHiveTable创建Hive表
5evalEvalSqlTool查看SQL执行结果
6import-all
-tables
ImportAllTables
Tool
导入某个数据库下所有表到HDFS中
7jobJobTool用来生成一个Sqoop的任务,生成后,
该任务并不执行,除非使用命令执行该任务
8list-databasesListDatabasesTool列出所有数据库名
9list-tablesListTablesTool列出某个数据库下所有表
10mergeMergeTool将HDFS中不同目录下面的数据合在一起,
并存放在指定的目录中
11metastoreMetastoreTool记录sqoop job的元数据信息,
如果不启动metastore实例,
则默认的元数据存储目录为:~/.sqoop,
如果要更改存储目录,
可以在配置文件sqoopsite.xml中进行更改。
12helpHelpTool打印sqoop帮助信息
13versionVersionTool打印sqoop版本信息
二、常用参数
### --- 常用参数

~~~     所谓公用参数,就是大多数命令都支持的参数。
~~~     公用参数 -- 数据库连接
序号参数说明
1--connect连接关系型数据库的URL
2--connection-manager指定要使用的连接管理类
3-driverHadoop根目录
4--help打印帮助信息
5--password连接数据库的密码
6--username连接数据库的用户名
7--verbose在控制打印出详细信息
三、公用参数--import
序号参数说明
1--enclosed给字段值前加上指定的字符
2--escaped对字段中的双引号加转义符
3--fields-terminated-by设定每个字段是以什么符号作为结束,默认为逗号
4--lines-terminated-by设定每行记录之间的分隔符,默认是\n
5--mysql-delimitersMysql默认的分隔符设置,字段之间以逗号分隔,
行之间以\n分隔,默认转义符是\,字段值以单引号包裹
6--optionally-enclosed-by给带有双引号或单引号的字段值前后加上指定字符
四、公用参数--export
序号参数说明
1--input-enclosed-by对字段值前后加上指定字符
2--input-escaped-by对含有转移符的字段做转义处理
3--input-fields-terminated-by字段之间的分隔符
4--input-lines-terminated-by行之间的分隔符
5--input-optionally-enclosed-by给带有双引号或单引号的字段前后加上指定字符
五、公用参数--hive
序号参数说明
1--hive-delimsreplacement用自定义的字符串替换掉数据中的\r\n和\013\010等字符
2--hive-drop-importdelims在导入数据到hive时,去掉数据中的\r\n\013\010这样的字符
3--map-column-hive生成hive表时,可以更改生成字段的数据类型
4--hive-partition-key创建分区,后面直接跟分区名,分区字段的默认类型为string
5--hive-partitionvalue导入数据时,指定某个分区的值
6--hive-home hive的安装目录,可以通过该参数覆盖之前默认配置的目录
7--hive-import 将数据从关系数据库中导入到hive表中
8--hive-overwrite覆盖掉在hive表中已经存在的数据
9--create-hive-table默认是false,即,如果目标表已经存在了,那么创建任务败。
10--hive-table后面接要创建的hive表,默认使用MySQL的表名
11--table指定关系数据库的表名
六、import参数
序号参数说明
1--append将数据追加到HDFS中已经存在的DataSet中,如果使用该参数,sqoop会把数据先导入到临时文件目录,再合并。
2--as-avrodatafile将数据导入到一个Avro数据文件中
3--as-sequencefile将数据导入到一个sequence文件中
4--as-textfile将数据导入到一个普通文本文件中
5--boundary-query边界查询,导入的数据为该参数的值(一条sql语句)
所执行的结果区间内的数据。
6--columns<col1,col2,col3>指定要导入的字段
7--direct直接导入模式,使用的是关系数据库自带的导入导出工具,
以便加快导入导出过程。
8--direct-split-size在使用上面direct直接导入的基础上,
对导入的流按字节分块,即达到该阈值就产生一个新的文件
9--inline-lob-limit设定大对象数据类型的最大值
10----m或-num-mappers启动N个map来并行导入数据,默认4个。
11--query或-e将查询结果的数据导入,使用时必须伴随参--target-dir,
--hive-table,如果查询中有where条件,
则条件后必须加上$CONDITIONS关键字
12--split-by按照某一列来切分表的工作单元,
不能与--autoreset-to-one-mapper连用(请参考官方文档)
13--table关系数据库的表名
14--target-dir指定HDFS路径
15--warehouse-dir与14参数不能同时使用,导入数据到HDFS时指定的目录
16--where从关系数据库导入数据时的查询条件
17--z或--compress允许压缩
18--compression-codes指定hadoop压缩编码类,
默认为gzip(UseHadoop codec default gzip)
19--null-stringstring类型的列如果null,替换为指定字符串
20--null-non-string非string类型的列如果null,替换为指定字符串
21--check-column作为增量导入判断的列名
22--incrementalmode:append或lastmodified
23--laste-value指定某一个值,用于标记增量导入的位置
七、export参数
序号参数说明
1--direct利用数据库自带的导出工具,以便于提高效率
2--export-dir存放数据的HDFS的源目录
3-m或num-mappers启动N个map来并行导入数据,默认4个
4--table指定导出到那个RDBMS的表
5--update-key对某一列的字段进行更新操作
6--update-modeupdateonly allowinsert(默认)
7--input-null-string请参考import该类似参数说明
8--input-null-non-string请参考import该类似参数说明
9--staging-table创建一张临时表,用于存放所有事务的结果,
然后将所有事务结果一次性导入到目录表中,防止错误
10--clear-staging-table如果第9个参数非空,则可以在导出操作执行前,
清空临时事务结果表
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

yanqi_vip

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值