Hive
weixin_44729445
这个作者很懒,什么都没留下…
展开
-
hive的复杂数据类型和分区表
复杂数据类型针对复杂数据类型,要了解1)如何存放2)如何查询数组类型Array(1,2,3,4) 要求装的数据类型是一样的create table hive_array(name string, work_locations array<string>)row format delimited fields terminated by '\t'COLLECTION I...原创 2019-07-29 00:09:06 · 254 阅读 · 0 评论 -
生产上求TOPN
现在有城市信息和产品信息两张表存放在MySQL中(固定的信息一般存储在MySQL中),用户行为日志存放在hdfs上。要统计各个区域下最受欢迎的产品的top 3(受欢迎程度以点击量衡量)1)city_info表和product_info表放到hive里面2)通过user_click关联hive里面的city_info和product_info3)再使用窗口函数求分组内的topnMySQL导入...原创 2019-07-29 12:14:56 · 98 阅读 · 0 评论 -
hive入门
官网:hive.apache.orgThe Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure can be projected onto data...原创 2019-07-26 00:07:20 · 89 阅读 · 0 评论 -
hive的使用
hive中的数据在hdfs上都是以文件夹/文件的方式存储的。database——table——partition——bucketVERSION表中有且只能存在一条记录DBS databases 库TBLS tables 表COLUMNS_V2 字段1.字段的数据类型数值:int、bigint、float、double字符串:string(时间类型也用string)bool...原创 2019-07-26 11:02:54 · 82 阅读 · 0 评论 -
hive的DDL、DML语句和内置函数
表CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_nameLIKE existing_table_or_view_name[LOCATION hdfs_path];拷贝表结构,不拷贝表数据CREATE TABLE ruozedata_emp2 LIKE ruozedata_emp;查看表的...原创 2019-07-28 11:38:09 · 121 阅读 · 0 评论 -
hive函数
数据格式text(文本格式):id,username,age,genderjson(json格式):{“id”:1,“username”:“ruozedata”,“age”,2,“gender”:“unknown”}数据清洗json==>拆成我们所需要的列(可能涉及到字段的扩充)raw==>width 原始数据转成大宽表,后续需要的所有字段都准备完毕json_tuple创...原创 2019-07-28 14:20:52 · 128 阅读 · 0 评论