- 博客(79)
- 资源 (3)
- 收藏
- 关注
原创 【AI生成+补充】高频 hql的面试问题 以及 具体sql
作用:创建分区表,数据按分区字段物理存储在不同目录中。示例:查询优化:-- 直接过滤分区目录HiveSQL 入门避坑指南:搞懂这些 “BY“,让你的 SQL 少跑 80% 的冤枉路_hive cluster by作用-CSDN博客Hive之explode()函数和posexplode()函数和lateral view函数_lateral view explode函数-CSDN博客。
2025-08-12 18:05:11
884
原创 [AI 生成] 千万级qps场景, 如何搭建大数据分析系统
复杂系统的服务器资源评估是一个持续演进、数据驱动、多维度考量的过程。它始于对系统和业务的深刻理解以及扎实的监控基线,依赖于科学的建模和严格的测试,并通过持续的监控、分析和优化来闭环。没有绝对精确的预测,核心在于建立有效的流程和机制,快速发现偏差并进行调整,在保障系统稳定性和性能的前提下,实现资源的高效利用和成本的最优控制。成功的容量规划是业务流畅运行、用户体验良好以及技术成本可控的重要基石。如果你能提供具体的系统架构、业务场景或当前遇到的评估难点,我可以给出更有针对性的建议和评估框架。
2025-08-11 15:39:12
1179
原创 [AI 生成] kafka 面试题
消息语义保障图表消费者组陷阱超时导致频繁Rebalance9。解决方案:异步处理+手动提交(确保业务逻辑在poll()超时前完成)7。建议结合线上问题场景(如曾处理过的积压案例)回答设计题,能显著提升面试表现。如需更细粒度的问题解析或模拟面试,可进一步沟通。
2025-08-11 15:30:41
1076
原创 [AI 生成] 大数据数仓面试题
【大数据数仓面试精要】150字摘要 本文系统梳理大数据数仓核心面试考点: 架构设计:分层建模(ODS/DWD/DWS/ADS)、实时离线方案对比(Flink vs Hive) 建模实战:事实表三大类型(事务/周期/累积)、SCD解决方案(拉链表实现) 性能优化:数据倾斜处理(两阶段聚合/MapJoin)、存储策略(ORC/Parquet选型) 新技术:湖仓一体(Hudi/Iceberg)、OLAP引擎(ClickHouse/Doris对比) 生产案例:亿级数据同步优化、实时维度更新方案 涵盖建模方法到调优实
2025-08-06 11:51:34
989
原创 [AI 生成] hive 面试题
- 解析JSON数组(假设logs字段为:'{"actions":[{"type":"click","time":100},{"type":"view","time":50}]}')SET hive.exec.reducers.bytes.per.reducer=256000000;SELECT user_id, COLLECT_LIST(order_id) AS order_ids -- COLLECT_SET 去重。-- 启用CBO(Cost-Based Optimizer,Hive 2.0+)
2025-08-06 11:40:51
1025
原创 [AI 生成] Spark 面试题
Spark面试核心知识点摘要 核心概念 RDD特性:弹性分布式数据集,具备分区、不可变、血缘依赖等特性,支持容错恢复。 组件角色:Driver负责调度,Executor执行任务,ClusterManager(YARN/Mesos)管理资源。 宽窄依赖:宽依赖触发Shuffle(如groupByKey),窄依赖流水线执行(如map/filter)。 执行流程 DAG调度:Action触发Job,按宽依赖划分Stage,Task并行执行。 Shuffle优化:减少数据传输(如reduceByKey替代group
2025-08-06 11:37:30
877
原创 hdu 4249 A Famous Equation【DP】【Fudan Local Programming Contest 2012 E】
题目大意:给一个a+b=c的表达式,但是a、b、c中部分位的数字丢失,并用?代替,问有多少种方案使得这个表达式成立。这个应该也属于动态规划的思想。其实思路还是比较较简单的。当低位进的数,和向高位进的数确定了,那么使得本位的等式成立的状态最多可以用10^3的时间复杂度确定。有了这个子状态,问题就好解决了。代码写的比较挫,贴别是枚举的时候,特别的繁琐。注意不能有前导0,但是只有一位
2012-11-08 10:26:27
1447
原创 hdu 4248 A Famous Stone Collector【DP】【Fudan Local Programming Contest 2012 D】
题目大意:给n堆不同颜色的石头,给定每堆石子的数量,问,能够组成多少串满足:Two patterns are considered different, if and only if they have different number of stones or have different colors on at least one position.解题思路:开始的时候没有思路,
2012-11-08 10:17:20
1268
原创 SGU 407-Number of Paths in the Empire【DP】
题目大意:如图,给定n个点形成环,中间一个点0,每个点到0连一条边,问从0开始,经过m条边有多少条路径使得回到0点,每个点每条边都可以经过多次。输出路径数思路:这个题目如果不考虑数据规模的话,用矩阵乘法可以解这个题,详见矩阵的十种应用,那个适用于100个点的任意图。这个题n这个题并没有把结果取余,哎,这样的话,答案就是个好几千位的数了。囧。。。时间复杂度还得算上两个数相加的时间!!
2012-11-07 10:54:51
999
原创 UVALive 4725 Airport 【DP】
题目连接该题的dp状态是dp[i][j] 表示前i时间第一个停机坪有j个飞机飞出时的最大值。由于只有两个停机坪,所以选择的第一个的只确定了,那么第二个也就确定了。当然,本题还存在飞机不够飞的情况,这个可以提前处理点(0,0 且前面的飞机都飞光了)仔细想想 虽然麻烦点,但是并非不可解。#include #include #include using namespace std
2012-10-19 21:30:51
1208
原创 UVALive 4847 Binary Search Tree【树型dp】
题目大意:给定一个1-n的排列,依次将这些数插入到二叉排序树中,问总共有多少个排列使得构成的二叉树和给定的排列构成的二叉树相同本题的思路就是:先构成要求的二叉排序树,然后再在树上进行dp状态转移为:dp[rt] = dp[lson]*dp[rson]*c(lson,sum);lson 表示左子树的点的个数,sum表示左右子树点的个数之和。c(a,b) 表示b中过选择a个的组合数。状
2012-10-19 21:16:29
1104
原创 UVALive 4844 String Popping【记忆化搜索】
题目大意:给定一个a、b构成的字符串,每次可以消去长度不小于2的连续相同字符,问给定字符能否消成空串。思路:首先我的思路就是搜索,当然暴搜的话超时。然后我就想着记忆搜索的状态,让状态变少!我记录的状态时:剩余字母的数量和ab变成01后二进制数值,打包成pair#include#include#include#include #include using namespace
2012-10-19 21:06:02
1261
原创 zoj 3659 Conquer a New Region【并查集】【2012长春现场赛】
最近好多题目都是树型结构,我最开始想到的是树型dp,但是完全没有思路,结题报告给的是并查集,看着解题报告想了好久,才看懂什么意思。按边排序,从大到小插入,每条边将两个集合连起来,而新加的边是两个集合所有边最小的,那么两个集合中的点交叉的通路最小的边就是新加的,那只要枚举两个集合,a,b是a并入b更优还是b并入a更优就行了。集合内部点已经计算出,相互的只要知道集合中元素的个数就好了。
2012-10-17 10:02:00
904
原创 zoj 3656 Bit Magic【2-sat】【2012 长春现场赛】
题目大意:给定数组b[][],b数组是有下面代码生成的void calculate(int a[N], int b[N][N]) { for (int i = 0; i < N; ++i) { for (int j = 0; j < N; ++j) { if (i == j) b[i][j] = 0; else if (i % 2 == 1 && j % 2 == 1) b[
2012-10-16 21:42:15
703
原创 zoj 3662 Math Magic 【dp】【2012 长春现场赛】
题目大意:问有多少组满足,个数为k个,和为n最小公倍数为m解题思路:首先我想到这个可能是dp,状态为前i个数组成和为j最小公倍数是k的方案数,但是这个时间复杂度和空间复杂度都很高。最后我的优化是将最小公倍数这个状态改变一下,事实上可以用到的数并不多,最多也就32个,(eg:10: 1 2 5 10)这样的话,我就解决了问题.但是我写的总是超时,后来分析了很久,原来这个其实最大的一组数据状态
2012-10-16 21:25:10
1118
原创 2012 ACM/ICPC Asia Regional Changchun Online 解题报告
hdu 4276 The Ghost Blows Light这个题是树形dp比赛的时候一直超时,囧,最后将代码进行了优化,然后就过了我的思路是,先将1到n的边先走,将走过的边时间改为0,然后其他的边都得走二次!剩下的就是简单的tree dp了,当时的代码太乱了!以至于超时!#include #include #include #include using names
2012-09-08 20:28:28
2836
1
原创 codeforces 220c Little Elephant and Shifts
很少遇到经典的题目,这个不算经典但是却也非常精彩。题目题目大意:给定两个两个1-n的排列,定义两个排列的距离为:所有相同数字之间距离的最小值,More formally, it's such minimum|i - j|, that ai = bj.定义Acyclic shift number i (1 ≤ i ≤ n) of permutationb consis
2012-09-05 11:38:19
1312
原创 Little Elephant and Array 线段树
题目 前几篇文章中出现了“靠”等字眼,一次偶然的机会百度到了一篇转载自我的文章,转载者将问中的包含“情绪”的语句全部删掉了,我这才注意到,最近我变得很容易情绪不好!!我错了,我想起了高中一老师说的“心静如水,激情似火”!看来我需要修炼的东西还很多啊…… 题目大意:给定10^5的一个数组,(10^5次)查询给定区间中出现次数和这个数的值相同的数的个数例如:
2012-09-04 20:10:34
843
转载 ACM大牛!!!!!!
出处: http://blog.sina.com.cn/s/blog_625b89630100mk7z.html 因不在新浪博客上活动了。。。未向作者表明此次转载的冲动。。。故表明出处。。望莫怪。。。。。wywcgs:亦称Lord Wu,俗名吴垠,2009级厦门大学智能科学与技术学院研究生,本科就读于哈尔滨工业大学。因其深厚的算法功底与独到的思维方
2012-08-30 10:39:39
5306
1
原创 The University of Chicago Invitational Programming Contest 2012 解题报告
这套题应该是由于每一个题目的时限都比较长,所以,被杭电用来测试系统了。也就是2012 ACM/ICPC Asia Regional Online Warmup。也就是hdu 4257-4266这套题的测试数据及代码:http://serjudging.vanb.org/?p=359这套题,今天我做了四个,还有一个,想做没时间了!开始的时候,状态不好,浪费了很多时间!hdu 435
2012-08-25 19:46:57
1462
原创 【贪心】拟阵论 贪心策略的数学基础
今天看到topcode上的一个题目,题解直接说是拟阵,然后就是一大通的证明。好奇的我今天就看了看拟阵的知识。 拟阵可以用来研究贪心算法,他是贪心算法的数学基础,可以这么说,一个问题如果他可以转换为拟阵,那么一定可以用贪心算法进行求解;但是并不是所有的可用贪心算法求解的问题都能转换为拟阵。——主要是用来求解最优问题。 相关资料:2007年国家集训队论文 浙江省杭
2012-08-23 17:57:11
2574
原创 状态压缩总结
ps:一年前写在qq空间的,今天把它移到这儿吧。。。状态压缩 好几天没写日志了,今天总结一下状态压缩。 前几天发的那个位运算基础好好,多多看看有意。由于我的计算机组成学的不咋地,所以我的位运算有点吃力。写一下老师课件上的几个常用操作吧! a |= 1 a &= ~(1 (a & 1 > bit & 1) != 0 //测位
2012-08-22 18:25:41
860
原创 DP 优化系列
我知道,我现在写这篇文章还很不成熟,因为我很多东西弄得还很不怎么样,但是我还是想写一下。国家集训队论文中有大量关于DP优化的论文:毛子青的《动态规划算法的优化技巧》、朱晨光的《从《鹰蛋》一题浅析对动态规划算法的优化》、杨哲的《凸完全单调性的一个加强与应用》等。特别是毛子青大牛的论文,值得一看!还要说明的是,周源的《浅谈数形结合思想在信息学竞赛中的应用》一文,谈到了数形结合、单调队列、和下凸折线
2012-08-22 11:19:54
3768
原创 2012金华邀请赛 Problem D. Garden 线段树题目
又是一个线段树问题,做了那么多的线段树,遇到这个题,还真是好难为我啊,看了好久都没看出来怎么做!看了很久思维只局限在单点更新上,怎么想都是死胡同,直到,突然闪电击中了大脑,然后,然后,原来这个题是区间更新,(#‵′)靠。具体的思路是:每个点和其后面的k个点的和算作一个点,然后,更新的时候,更新影响到的点,查询的时候,查询需查询区间的多有相应的点的最值即可!这个题的关键是区间更新,一个点
2012-08-21 20:47:40
1803
转载 priority_queue用法
priority_queuepriority_queue调用 STL里面的 make_heap(), pop_heap(), push_heap() 算法实现,也算是堆的另外一种形式。先写一个用 STL 里面堆算法实现的与真正的STL里面的 priority_queue用法相似的priority_queue, 以加深对 priority_queue 的理解#include #incl
2012-08-18 09:25:10
583
原创 k-d树学习
题目:http://acm.hdu.edu.cn/showproblem.php?pid=4347k-d树在acm界好像不是很常见的样子,至于到底会不会考到我也不清楚,我遇到的题目有两个,第一个是今年长春邀请赛的时候的D题,题解是这么说的D:(Fire Station Problem),7,本意为KD tree 过,但是由于坐标比较小实际上部分队伍水过没找到当时的网址,抱歉。还有一
2012-08-11 11:56:52
3453
原创 稳定婚姻问题
poj 3487 http://poj.org/problem?id=3487题目大意:现在有n个男士,n个女士,他们要组合家庭每一个男士都对每一位女士有一个喜好值,同样每一个女士对每一个男士也有一个喜好值现在要求一种组合方式,让婚姻稳定!怎样才能稳定呢??如果存在一个男士和一位女士,他们不是夫妻,但是对对方的喜好度都大于现在的伴侣,那么这个婚姻是不稳定的,容易理解吧那么怎
2012-08-06 17:31:55
2365
转载 [Algorithm]01分数规划
【关键字】0/1分数规划、最优比率生成树、最优比率环【背景】 根据楼教主的回忆录,他曾经在某一场比赛中秒掉了一道最优比率生成树问题,导致很多人跟风失败,最终悲剧。可见最优比率生成树是多么凶残的东西,但是这个东西只要好好研究半天就可以掌握,相信你在看了我写的这篇总结之后可以像楼教主一般秒掉这类问题。因为网上对于01分数规划问题的详细资料并不是太多,所以我就结合自己的一些理解总结这
2012-08-04 21:18:30
1513
1
原创 划分树
划分树是数据结构中的一种,作用就是快速查找给定区间的第k小值,时间复杂度:建树O(nlogn)、查询O(n)。划分树应该是类似于线段树的,或者说,就是线段树的原理。 至于如何处理,可以看胡浩博客给的代码,胡浩的博客地址是:http://www.notonlysuccess.com/index.php/divide-tree/最近喜欢上胡浩的博客了,什么都上上边找,
2012-08-02 17:05:34
1203
原创 线段树 矩形并周长 picture
线段树 我还是首推胡浩大牛的博客http://www.notonlysuccess.com/线段树中扫描线一直是我比较吃力的一种题。矩形面积并,周长并,特别是周长并,一直无法解决,想不明白,现在终于做出来一个周长并的题目了, 是不是我的线段树水平又有了一点提高呢?代码不长,写起来老麻烦了!周长并与面积并不同的是,周长并需要记录竖着的边的情况。也就是说,需要记录边的合并问题,代码中分别使
2012-08-01 10:07:47
2028
原创 灵活而神奇的 伸展树!
首先推荐一篇文章,http://www.notonlysuccess.com/index.php/splay-tree/ 这个是胡浩大牛的文章,推荐原因很简单!第一,上面有很多经典论文,第二,有很多经典题目。故推荐 胡浩的文章中提到的那几篇论文中已经将伸展树将的非常清楚了!我说说我的感受,伸展树是一种非常灵活的数据结构,原因就是,伸展树可以将你想要的点转移到任意一个地方,这样的话,添加、
2012-08-01 09:41:21
1367
原创 The 12th Zhejiang University Programming Contest
The 12th Zhejiang University Programming Contest 第十二届浙大校赛题,在zoj上是:3591-3599这套题可以说是比较难的,真想做7个!!!但是,遗憾的是,这套题真的很难!即使看着集体报告做,我也没做到7个题,而且还有好几个不明白怎么证明,真心给做出来的人跪了。囧……同样,给一个解题报告网址:http://blog.sina.com
2012-05-29 20:19:19
2109
原创 The 9th Zhejiang Provincial Collegiate Programming Contest
终于决定做套题了,这个是个开始!首先给出两个解题报告网址,http://blog.watashi.ws/2274/zjpcpc2012/watashi大神的,另一个http://blog.sina.com.cn/s/blog_5123df350100zp0s.html题目在zoj 3600 - 3610zoj 3600 水题,不解释zoj 3601 Unrequited L
2012-05-26 14:04:29
2562
原创 uva Alberta Collegiate Programming Contest 2011 总结
http://uva.onlinejudge.org/index.php?option=com_onlinejudge&Itemid=13&page=show_contest&contest=297最近来看我博客的实在是太少了,当然评论也就更少了,上一个评论还是去年的事,还是我同学评的,囧周六的时候,也就是4月7号,周六晚上我弄的并不是很认真,我队友他们也没有兴趣,最后的结果就
2012-04-09 21:42:50
881
1
原创 hdu 4187 Alphabet Soup polya原来还可以这样
哎,想写一个解题报告的,但是,写出来看着就不舒服,最后还是删了。囧这个题,明显的是polya问题,最核心的东西是:当这个旋转a个角度之后和原先的重合,那么旋转2*a个角度之后仍然重合,当然,旋转一周(36000)之后仍然重合。是的,我们可以看到,这个最小的a“区间”就是“项链”问题的一个珠子,然后就是若干个珠子的polya,直接模板!!求这个a的时候用到的东西是 :角度之间的距离然后kmp,
2012-04-06 21:31:11
1321
原创 hdu 4196 Remoteland 一种思考
我不是很喜欢弄解题报告这样的东西,所以,我做过的题好多都忘了,就好像没做过。这个题,难度并不是很难,但是,却是让我有了另一种思考,以前我一直在想,acm考的到底是什么??知识点??不像啊,好多的题目我根本就不是知识点,我根本就没法下手,根本就不可能做出来,我要怎么做才能提高自己的水平呢?在迷茫中我苦苦的做题,毫无进展,如何才能出了那些“没有知识点”的题目??到现在我也没有答案,今天看到的这个题
2012-04-06 09:16:06
1132
原创 HDU 3038 How Many Answers Are Wrong
题目大意:有n次询问,给出a到b区间的总和,问这n次给出的总和中有几次是和前面已近给出的是矛盾的??做了好长时间了,现在整理一下首先说明的是,这个是并查集的一种应用,刚开始的时候我还以为是线段树之类的东西呢。但是苦思无解,最后还是看了解题报告,原来是并查集,看完解题报告,我发现,有一组数据我一直想不明白,10 31 2 23 4 22 4 100呵呵,我傻了,我以为1到
2012-03-22 09:53:40
4306
好玩的数学·幻方及其他:娱乐数学经典名题
2012-03-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人