僕の名前を-CSDN博客

原创面试（1）SQL

有两张表及其测试数据，如下部门表depdept_id dept_name部门编号部门名称D1 部门1D2 部门2D3 部门3D4 部门4D5 部门5员工表empemp_id emp_lname emp_fname birthday gender dept_id emp_wage员工编号员工姓员工名出生日期性别部门编号工资E1 张三 1995-03-10 男 D1 2200E2 李四 1987-01-11 男 D1 3000E3 王五 1991-04-09 女

2020-05-25 13:19:14 294

原创大数据面试(Hive优化)

Hive优化MapJoin如果不指定MapJoin或者不符合MapJoin的条件，那么Hive解析器会将Join操作转换成Common Join，即：在Reduce阶段完成Join，容易发生数据倾斜，可以用MapReduce把小表全部加载到内存，在map端进行join，避免reduce处理行列过滤列处理：在select中，只拿需要的列，如果有，尽量使用分区过滤，少用select *行处...

2020-04-23 21:41:30 275

原创大数据面试总结（一）

HDFS1.HDFS的写流程2.HDFS的Shuffle过程3.数据复制规则（机架感知，心跳机制）Hive1.数据从MySQL拉取到Hive中，利用Sqoop，是全量导入还是增量导入？答：(针对不同类型的数据采取不同的导入策略)例如昨天一天的订单就全量导入，因为每一天的订单，全部都要汇总分析；新增用户就采用增量导入，新增用户数量不会出现很大的改变，所以采用增量导入的方式(增量导入方式分...

2020-04-22 21:07:47 398

原创 Hive复习之数据库的基本操作

1.Hive库、表的特点hive有默认库default，如果不指定，则使用的是默认库Hive的数据库名、表名都不区分大小写名字不能使用数字开头、不能使用关键字、尽量不使用特殊字符create table if not exists t1(uname string comment 'this is name',chinese int,math int,english int)...

2020-04-21 21:02:00 172

原创 Hive复习之基础知识

1.Hive入门1.1什么是HiveHive是基于Hadoop的一个数据仓库工具，可以将结构化的数据映射为一张表，并提供类SQL的查询功能。特点：1.Hive的底层是将HQL转化称MapReduce程序 2..Hive处理的数据存储在HDFS上 3.执行程序运行在Yarn1.2Hive的优缺点优点缺点1.采用类SQL的语法，简单、容易上手1.由于底层是...

2020-04-21 16:34:06 208

原创排序算法之快速排序(java+Scala)

JAVA排序算法之快速排序简述快速排序是一种执行效率很高的排序算法，利用分治的思想，设置一个基准数，将所有比基准数小的放在标识数的左边，比基准数大的放在基准的右边，通过递归，将整个数组排序。//java代码public class QuickSort { public static void quickSort(int[] arr,int left, int right){ ...

2020-04-02 21:56:42 106

weixin_43915186的博客

原创面试（1）SQL

原创大数据面试(Hive优化)

原创大数据面试总结（一）

原创 Hive复习之数据库的基本操作

原创 Hive复习之基础知识

原创排序算法之快速排序(java+Scala)

空空如也

空空如也

原创 面试（1）SQL

原创 大数据面试(Hive优化)

原创 大数据面试总结（一）

原创 Hive复习之数据库的基本操作

原创 Hive复习之基础知识

原创 排序算法之快速排序(java+Scala)

空空如也

空空如也

原创面试（1）SQL

原创大数据面试(Hive优化)

原创大数据面试总结（一）

原创排序算法之快速排序(java+Scala)