自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 面试(1)SQL

有两张表及其测试数据,如下 部门表dep dept_id dept_name 部门编号 部门名称 D1 部门1 D2 部门2 D3 部门3 D4 部门4 D5 部门5 员工表emp emp_id emp_lname emp_fname birthday gender dept_id emp_wage 员工编号 员工姓 员工名 出生日期 性别 部门编号 工资 E1 张 三 1995-03-10 男 D1 2200 E2 李 四 1987-01-11 男 D1 3000 E3 王 五 1991-04-09 女

2020-05-25 13:19:14 292

原创 大数据面试(Hive优化)

Hive优化 MapJoin 如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成Common Join,即:在Reduce阶段完成Join,容易发生数据倾斜,可以用MapReduce把小表全部加载到内存,在map端进行join,避免reduce处理 行列过滤 列处理:在select中,只拿需要的列,如果有,尽量使用分区过滤,少用select * 行处...

2020-04-23 21:41:30 273

原创 大数据面试总结(一)

HDFS 1.HDFS的写流程 2.HDFS的Shuffle过程 3.数据复制规则(机架感知,心跳机制) Hive 1.数据从MySQL拉取到Hive中,利用Sqoop,是全量导入还是增量导入? 答:(针对不同类型的数据采取不同的导入策略)例如昨天一天的订单就全量导入,因为每一天的订单,全部都要汇总分析;新增用户就采用增量导入,新增用户数量不会出现很大的改变,所以采用增量导入的方式(增量导入方式分...

2020-04-22 21:07:47 394

原创 Hive复习之数据库的基本操作

1.Hive库、表的特点 hive有默认库default,如果不指定,则使用的是默认库 Hive的数据库名、表名都不区分大小写 名字不能使用数字开头、不能使用关键字、尽量不使用特殊字符 create table if not exists t1( uname string comment 'this is name', chinese int, math int, english int ) ...

2020-04-21 21:02:00 172

原创 Hive复习之基础知识

1.Hive入门 1.1什么是Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据映射为一张表,并提供类SQL的查询功能。 特点:1.Hive的底层是将HQL转化称MapReduce程序 2..Hive处理的数据存储在HDFS上 3.执行程序运行在Yarn 1.2Hive的优缺点 优点 缺点 1.采用类SQL的语法,简单、容易上手 1.由于底层是...

2020-04-21 16:34:06 208

原创 排序算法之快速排序(java+Scala)

JAVA排序算法之快速排序 简述 快速排序是一种执行效率很高的排序算法,利用分治的思想,设置一个基准数,将所有比基准数小的放在标识数的左边,比基准数大的放在基准的右边,通过递归,将整个数组排序。 //java代码 public class QuickSort { public static void quickSort(int[] arr,int left, int right){ ...

2020-04-02 21:56:42 106

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除