CC00058.hadoop——|Hadoop&Hadoop常用命令.V00|——|Hadoop生态圈v00|常用命令|

一、常用命令

序号	命令	类	说明
1	import	ImportTool	将数据导入到集群
2	export	ExportTool	将集群数据导出
3	codegen	CodeGenTool	获取数据库中某张表数据生成Java并打包Jar
4	create-hive-table	CreateHiveTable	创建Hive表
5	eval	EvalSqlTool	查看SQL执行结果
6	import-all -tables	ImportAllTables Tool	导入某个数据库下所有表到HDFS中
7	job	JobTool	用来生成一个Sqoop的任务，生成后，该任务并不执行，除非使用命令执行该任务
8	list-databases	ListDatabasesTool	列出所有数据库名
9	list-tables	ListTablesTool	列出某个数据库下所有表
10	merge	MergeTool	将HDFS中不同目录下面的数据合在一起，并存放在指定的目录中
11	metastore	MetastoreTool	记录sqoop job的元数据信息，如果不启动metastore实例，则默认的元数据存储目录为：~/.sqoop，如果要更改存储目录，可以在配置文件sqoopsite.xml中进行更改。
12	help	HelpTool	打印sqoop帮助信息
13	version	VersionTool	打印sqoop版本信息

二、常用参数

### --- 常用参数

~~~     所谓公用参数，就是大多数命令都支持的参数。
~~~     公用参数 -- 数据库连接

序号	参数	说明
1	--connect	连接关系型数据库的URL
2	--connection-manager	指定要使用的连接管理类
3	-driver	Hadoop根目录
4	--help	打印帮助信息
5	--password	连接数据库的密码
6	--username	连接数据库的用户名
7	--verbose	在控制打印出详细信息

三、公用参数--import

序号	参数	说明
1	--enclosed	给字段值前加上指定的字符
2	--escaped	对字段中的双引号加转义符
3	--fields-terminated-by	设定每个字段是以什么符号作为结束，默认为逗号
4	--lines-terminated-by	设定每行记录之间的分隔符，默认是\n
5	--mysql-delimiters	Mysql默认的分隔符设置，字段之间以逗号分隔，行之间以\n分隔，默认转义符是\，字段值以单引号包裹
6	--optionally-enclosed-by	给带有双引号或单引号的字段值前后加上指定字符

四、公用参数--export

序号	参数	说明
1	--input-enclosed-by	对字段值前后加上指定字符
2	--input-escaped-by	对含有转移符的字段做转义处理
3	--input-fields-terminated-by	字段之间的分隔符
4	--input-lines-terminated-by	行之间的分隔符
5	--input-optionally-enclosed-by	给带有双引号或单引号的字段前后加上指定字符

五、公用参数--hive

序号	参数	说明
1	--hive-delimsreplacement	用自定义的字符串替换掉数据中的\r\n和\013\010等字符
2	--hive-drop-importdelims	在导入数据到hive时，去掉数据中的\r\n\013\010这样的字符
3	--map-column-hive	生成hive表时，可以更改生成字段的数据类型
4	--hive-partition-key	创建分区，后面直接跟分区名，分区字段的默认类型为string
5	--hive-partitionvalue	导入数据时，指定某个分区的值
6	--hive-home hive	的安装目录，可以通过该参数覆盖之前默认配置的目录
7	--hive-import	将数据从关系数据库中导入到hive表中
8	--hive-overwrite	覆盖掉在hive表中已经存在的数据
9	--create-hive-table	默认是false，即，如果目标表已经存在了，那么创建任务败。
10	--hive-table	后面接要创建的hive表,默认使用MySQL的表名
11	--table	指定关系数据库的表名

六、import参数

序号	参数	说明
1	--append	将数据追加到HDFS中已经存在的DataSet中，如果使用该参数，sqoop会把数据先导入到临时文件目录，再合并。
2	--as-avrodatafile	将数据导入到一个Avro数据文件中
3	--as-sequencefile	将数据导入到一个sequence文件中
4	--as-textfile	将数据导入到一个普通文本文件中
5	--boundary-query	边界查询，导入的数据为该参数的值(一条sql语句) 所执行的结果区间内的数据。
6	--columns<col1，col2，col3>	指定要导入的字段
7	--direct	直接导入模式，使用的是关系数据库自带的导入导出工具，以便加快导入导出过程。
8	--direct-split-size	在使用上面direct直接导入的基础上，对导入的流按字节分块，即达到该阈值就产生一个新的文件
9	--inline-lob-limit	设定大对象数据类型的最大值
10	----m或-num-mappers	启动N个map来并行导入数据，默认4个。
11	--query或-e	将查询结果的数据导入，使用时必须伴随参--target-dir， --hive-table，如果查询中有where条件，则条件后必须加上$CONDITIONS关键字
12	--split-by	按照某一列来切分表的工作单元，不能与--autoreset-to-one-mapper连用(请参考官方文档)
13	--table	关系数据库的表名
14	--target-dir	指定HDFS路径
15	--warehouse-dir	与14参数不能同时使用，导入数据到HDFS时指定的目录
16	--where	从关系数据库导入数据时的查询条件
17	--z或--compress	允许压缩
18	--compression-codes	指定hadoop压缩编码类，默认为gzip(UseHadoop codec default gzip)
19	--null-string	string类型的列如果null，替换为指定字符串
20	--null-non-string	非string类型的列如果null，替换为指定字符串
21	--check-column	作为增量导入判断的列名
22	--incremental	mode：append或lastmodified
23	--laste-value	指定某一个值，用于标记增量导入的位置

七、export参数

序号	参数	说明
1	--direct	利用数据库自带的导出工具，以便于提高效率
2	--export-dir	存放数据的HDFS的源目录
3	-m或num-mappers	启动N个map来并行导入数据，默认4个
4	--table	指定导出到那个RDBMS的表
5	--update-key	对某一列的字段进行更新操作
6	--update-mode	updateonly allowinsert(默认)
7	--input-null-string	请参考import该类似参数说明
8	--input-null-non-string	请参考import该类似参数说明
9	--staging-table	创建一张临时表，用于存放所有事务的结果，然后将所有事务结果一次性导入到目录表中，防止错误
10	--clear-staging-table	如果第9个参数非空，则可以在导出操作执行前，清空临时事务结果表