Hive
文章平均质量分 57
中国好胖子、
学不死就往死里学,比你优秀的人比你还努力,你还拿什么和别人拼
展开
-
Presto查询Hive无数据解决方法
1、是否使用了TEZ引擎2、是否配置好了presto如果是TEZ引擎,则加上一条配置即可在hive.properties中增加hive.recursive-directories=true原创 2021-01-26 11:42:50 · 2164 阅读 · 2 评论 -
Hive调优全方位指南
1、表层面1.1 利用分区表优化分区表 是在某一个或者几个维度上对数据进行分类存储,一个分区对应一个目录。如果筛选条件里有分区字段,那么 Hive 只需要遍历对应分区目录下的文件即可,不需要遍历全局数据,使得处理的数据量大大减少,从而提高查询效率。也就是说:当一个 Hive 表的查询大多数情况下,会根据某一个字段进行筛选时,那么非常适合创建为分区表,该字段即为分区字段。eg:CREATE TABLE page_view(viewTime INT, userid BIGINT, page原创 2020-08-29 22:55:44 · 599 阅读 · 2 评论 -
Hive面试题之影评分析
数据和需求的概览现有如此三份数据:1、users.dat 数据格式为: 2::M::56::16::70072对应字段为:UserID BigInt, Gender String, Age Int, Occupation String, Zipcode String对应字段中文解释:用户id,性别,年龄,职业,邮政编码2、movies.dat 数据格式为: 2::Jumanji (1995)::Adventure|Children’s|Fantasy对应字段为:MovieID Bi.原创 2020-08-29 14:04:55 · 2159 阅读 · 1 评论 -
Hive下什么是数据倾斜问题?
Hive下的数据倾斜的场景在我们的学习,还是生活中,经常会出现数据倾斜的问题,那么什么是数据倾斜问题呢,让我们来复现一下我们的要求。首先,我写了两个表,其中user表5000万数据量,观影表2亿条数据,现如今需要的是,各个年龄段的观影数量排名。环境:hadoop 2.7hive 1.2.1centos 6.8 虚拟机 1核 8G来吧让我们愉快的去创造数据把import java...原创 2019-09-08 23:50:28 · 468 阅读 · 0 评论