创建基础表
1、创建表:
create table if not exists orders
创建一个名叫“orders”的表,“if not exists”可以写可不写,如果相同名字的表已经存在,则抛出异常,可以用 IF NOT EXIST 选项来忽略这个异常。
2、定义表的列名称及数据类型:
(order_id string,user_id string,eval_set string,order_number int, order_dow int,order_hour_of_day int,days_since_prior_order double)
3、COMMENT 列描述和表描述
create table IF NOT EXISTS default.log_test (
ip string COMMENT 'client ip address',
user string ,
request_url string COMMENT 'client request url'
) COMMENT 'Test access log';
4、每列之间的分隔符
hive中的表需要映射到hdfs文件中,所以需要定义文件中的每一行之间的分隔符,每一列之间的分隔符。增加行分隔符的语句如下:
row format delimited fields terminated by ','
这句的意思是以逗号来分隔行数据,那么这一行中的数据只要遇到一个逗号就可以划分为一个数据。这里的分隔符可以是其他字符,比如" ", "#" , "|", ''/t"(四个空格)等,一般只要用数据文件中可以区分每一行中的不同数据即可。
5、列与列直接的分隔符通常是以换行符来区分
lines terminated by '\n'
6、指定文件的类型
stored as textfile
[STORED AS file_format]是指定文件的类型,保存在hive中的文件的类型有多种,一般简单就保存为文本格式,即TEXTFILE,但是企业中一般不使用这种格式来保存数据,主要是因为文本格式占的空间比较大,不利于大数据分析。企业中一般使用ORC和PARQUET两种文件类型来保存.
7、导入数据
本地数据通过Xftp上传到/opt/moudle/badou/的文件夹里,可自定义文件地址。