自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 面试(1)SQL

有两张表及其测试数据,如下部门表depdept_id dept_name部门编号 部门名称D1 部门1D2 部门2D3 部门3D4 部门4D5 部门5员工表empemp_id emp_lname emp_fname birthday gender dept_id emp_wage员工编号 员工姓 员工名 出生日期 性别 部门编号 工资E1 张 三 1995-03-10 男 D1 2200E2 李 四 1987-01-11 男 D1 3000E3 王 五 1991-04-09 女

2020-05-25 13:19:14 294

原创 大数据面试(Hive优化)

Hive优化MapJoin如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成Common Join,即:在Reduce阶段完成Join,容易发生数据倾斜,可以用MapReduce把小表全部加载到内存,在map端进行join,避免reduce处理行列过滤列处理:在select中,只拿需要的列,如果有,尽量使用分区过滤,少用select *行处...

2020-04-23 21:41:30 275

原创 大数据面试总结(一)

HDFS1.HDFS的写流程2.HDFS的Shuffle过程3.数据复制规则(机架感知,心跳机制)Hive1.数据从MySQL拉取到Hive中,利用Sqoop,是全量导入还是增量导入?答:(针对不同类型的数据采取不同的导入策略)例如昨天一天的订单就全量导入,因为每一天的订单,全部都要汇总分析;新增用户就采用增量导入,新增用户数量不会出现很大的改变,所以采用增量导入的方式(增量导入方式分...

2020-04-22 21:07:47 398

原创 Hive复习之数据库的基本操作

1.Hive库、表的特点hive有默认库default,如果不指定,则使用的是默认库Hive的数据库名、表名都不区分大小写名字不能使用数字开头、不能使用关键字、尽量不使用特殊字符create table if not exists t1(uname string comment 'this is name',chinese int,math int,english int)...

2020-04-21 21:02:00 172

原创 Hive复习之基础知识

1.Hive入门1.1什么是HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据映射为一张表,并提供类SQL的查询功能。特点:1.Hive的底层是将HQL转化称MapReduce程序 2..Hive处理的数据存储在HDFS上 3.执行程序运行在Yarn1.2Hive的优缺点优点缺点1.采用类SQL的语法,简单、容易上手1.由于底层是...

2020-04-21 16:34:06 208

原创 排序算法之快速排序(java+Scala)

JAVA排序算法之快速排序简述快速排序是一种执行效率很高的排序算法,利用分治的思想,设置一个基准数,将所有比基准数小的放在标识数的左边,比基准数大的放在基准的右边,通过递归,将整个数组排序。//java代码public class QuickSort { public static void quickSort(int[] arr,int left, int right){ ...

2020-04-02 21:56:42 106

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除