面经、资料、经典文章分享
文章平均质量分 81
面经
斑马!
本科和研究生就读于某普通一本院校的计算机科学与技术专业,目前研究生三年级,暑期实习拿到美团,阿里,京东等大厂offer;秋招拿到了美团,京东,小米等大厂offer。方向是大数据开发工程师,主要做的是离线数仓和实时数仓这块。有想一起学习的小伙伴可以通过博客联系我!
展开
-
大数据领域的一些重要网站和经典文章
大数据领域的一些重要网站和经典文章原创 2022-06-02 16:15:15 · 287 阅读 · 0 评论 -
大数据--面经--2021年字节跳动大数据研发岗面试复盘
一:什么是数据倾斜?为什么会产生数据倾斜? 你在实际应用中是否遇到过数据倾斜的问题?怎么解决数据倾斜?二:写编程题目:求前k大的数三:写SQL day user_type 完播率 网页跳转来源 2021-03-05 1(1代表新用户) 30% 广告 2021-01-01 0(旧用户) 20% 链接 每个自然周,新用户,完播率排名前5的用户的网页跳转来...原创 2021-04-04 11:12:28 · 9338 阅读 · 4 评论 -
大数据--hadoop生态12--高频知识点总结
一:一个基本的Hadoop集群中的节点主要有•NameNode:负责协调集群中的数据存储 •DataNode:存储被拆分的数据块 •JobTracker:协调数据计算任务 •TaskTracker:负责执行由JobTracker指派的任务 •SecondaryNameNode:帮助NameNode收集文件系统运行的状态信息2.分布式文件系统节点分类: 分布式文件系统在物理结构上是由计算机集群中的多个节点构成的,这些节点分为 两类,一类叫“主节点”(Master Node)...原创 2021-04-03 21:49:18 · 1022 阅读 · 1 评论 -
Java--牛客网编程OJ的常用输入模板
一:输入是已知大小的二维数组输入描述:输入描述第一行是一个正整数n,表示二维数组有n行n列import java.util.*;public class Main{ public static void main(String[] args){ Scanner scan = new Scanner(System.in); int n = scan.nextInt(); int[][] arr = new int[n][n];原创 2021-06-10 16:45:42 · 1870 阅读 · 0 评论 -
大数据--面经2--2021年阿里巴巴大数据复盘以及面经总结
一:在a表,不在b表1. 有2张表t1和t2,每张表都只有一列(列名:id),现在想抽取仅存在于t1的id,请写出sql语句 【注意】:1)注意格式,最外层的id,我们需要指定其对应的表是a还是b,我们需要明确 2)不要使用无谓的临时表 select a.id from ( select id from t1 )a left outer join ( selec...原创 2021-05-17 20:19:53 · 721 阅读 · 0 评论 -
大数据--hive--经典SQL题目(百度面试SQL题目)
一:题目一:第n多和连续三天思维有一个日志数据解析得到的table 有三个字段:timestamp username user_action1)统计近10天每日行为数量2)行为第三多的用户及其数量3)连续3天有行为的用户?解答:1.1统计近10天每日行为数量1.1.1 答案:-- 统计近10天每日行为数量select pt_dt, count(1)from( select to_date(timest...原创 2021-09-01 17:57:51 · 1304 阅读 · 0 评论 -
hive调优最全总结
目录第八章 数据调优及其原理11/158.1 小问题问题8.1.1 小文件的危害8.1.2 小文件的产生原理8.1.3 小文件的治理方案8.2 数据倾斜问题8.3 减少数据量8.4 参数优化8.5 企业级调优第八章 数据调优及其原理11/158.1 小问题问题小文件过多会占用大量内存,且在初始化时会占用大量计算资源,严重影响性能。对于已经存在的小文件,建议把小文件进行归档;重建表,建表的时候减少reduce数量;通过参数调节,设置map/re...原创 2021-11-19 10:44:05 · 4244 阅读 · 0 评论 -
大数据--spark生态6--spark高频面试题(常见算子之间的异同点)
一:map和mappartitions区别 map是对rdd中的每一个元素进行操作,mapPartitions则是对rdd中每个分区的迭代器进行操作;从性能上看,mappartitions的性能较高,举例来说,如果一个partition中有一万条数据,在使用map的时候,function需要执行和计算1万次;使用mappartitions操作的时候,一个task仅仅会执行一次function。从瓶颈上说,如果一个分区里面数据量过大,比如几百万条,一次传入function以后,内存可能不够,...原创 2022-04-13 16:02:51 · 1852 阅读 · 0 评论