- 博客(3)
- 收藏
- 关注
原创 spark shuffle数据倾斜
1.背景autocomplete业务每天的定期刷新连续几天都失败了,发现在业务方改了joinsource之后开始失败的。autocomplete一共有22个provider,Main和Movie也是每天定期刷新的,main有MultiDataReader。业务方把Main的最后一个子datareader和Movie这个provider的datareader的sql都换了一张表,并且新表没有cityid和shopid字段,业务方把cityid和shopid都写死为-1,而改joinsource之前那张老表
2020-11-10 11:33:28 108
转载 计算密集型&IO密集型
原文:http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000进程 vs. 线程我们介绍了多进程和多线程,这是实现多任务最常用的两种方式。现在,我们来讨论一下这两种方
2017-03-10 16:50:30 14440
转载 epoll讲解--转自"知乎"
作者:蓝形参,<strong title="Geek" 伪技术宅"="" class="xukw" style="padding: 0px; margin: 0px;">Geek 伪技术宅 首先我们来定义流的概念,一个流可以是文件,socket,pipe等等可以进行I/O操作的内核对象。不管是文件,还是套接字,还是管道,我们都可以把他们看作流。之后我们来讨论I/O的操作,
2017-03-10 16:23:24 288
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人