大数据
文章平均质量分 89
波波菜鸟
这个作者很懒,什么都没留下…
展开
-
【社招】快手_数据仓库_面试题整理
一、面试的是大数据开发岗(偏数据仓库),以下是面试题。技术面一共三面,我将问题hui1 讲一下你门公司的大数据项目架构2 你在工作中都负责哪一部分3 spark提交一个程序的整体执行流程。(包括向yarn申请资源,DAG切割,TaskScheduler,执行task等等过程,要说清楚)4 spark常用算子列几个,6到8个吧5 transformation跟action算子有啥区别6 map和flatmap的区别7 自定义usf,udtf,udaf讲一下这几个函数的区别,都要实现里面的什么方原创 2020-07-06 19:45:01 · 7338 阅读 · 17 评论 -
【hive】count distinct时遇到的坑
先说结论:使用count distinct计算两列联合去重时,若有任何一列为null 那么count计数时就会略过这一条。如:count(distinct a,b) 若a或者b中有一个是null,那么这一行就不会参与计数平台:hive、mysql都是如此1、给一张测试表如下:表名设为test,注意第三行的name是null,空值idtoolsname1hivea2hiveb3hiveNULL2、观察下方执行结果:select distinct原创 2020-08-06 12:08:30 · 2747 阅读 · 0 评论 -
【hive】如何过滤字符串null的同时保留NULL
在开发过程中,遇到一个实际的问题,如何过滤字符串null?为了说明问题,我先将问题简化。有一个表格,数据中的id这一列有这样几个值:a,b,c,null,NULL数据库中显示如下图:现在,我想过滤掉值为null的行,但是保留值为空的行。也就是结果中应该有四行,a,b,c,NULLsql语句如下:select id from table0 where id!=‘null’结果是这样...原创 2019-10-16 15:28:12 · 1625 阅读 · 0 评论 -
【Spark 】合并小文件的一种方法
小文件问题原因:spark.sql.shuffle.partitions=200 spark sql默认shuffle分区是200个,如果数据量比较小时,写hdfs时会产生200个小文件。可通过如下调整,使其自适应的合并小文件(本人测试环境从原来的200个小文件合并成一个文件)解决方法:spark-sql> set spark.sql.adaptive.enab...转载 2019-08-29 15:26:31 · 1613 阅读 · 7 评论 -
使用Sqoop将Hive导入Mysql中特殊字符问题
问题一 用户昵称包含特殊符号,引起sqoop程序失常:最近在使用sqoop将Hive中的数据导入Mysql的过程中报错了。报错信息如下:19/05/07 17:28:48 WARN mapreduce.Counters: Group FileSystemCounters is deprecated. Use org.apache.hadoop.mapreduce.FileSystemCount...原创 2019-05-08 18:05:15 · 3616 阅读 · 4 评论 -
hive中进行增量统计-full join的用法-如何合并表中两列
我将其他相关不必要的细节隐去,只保留最终的技术点,希望能对以后有需要的朋友提供些许帮助。最近在进行hive表的统计的时候有这样的一个需求,hivie中增量统计任务需求:有这样的两个表 table0,table01,table0为原始数据表:agenumtotalpday502010020190420602010020190420702...原创 2019-05-07 10:45:32 · 20493 阅读 · 7 评论 -
JAVA入门之变量与类型
本篇博客主要是包括如下几个部分。关键字标识符变量数据类型类型转换1、关键字1.1关键字的理解我理解的关键字,被JAVA语言赋予了特殊含义,用作专门用途的单词。换句话说, 我们在定义一个变量的时候是不允许使用这些关键字的,否则程序运行起来会出错。举个直观的例子,查看以下对话:坏人:“你叫啊,你叫破喉咙也没有人来救你的。”受害者:“破喉咙!破喉咙!”没有人:“何人在求救,我...原创 2019-04-04 19:40:08 · 244 阅读 · 0 评论