- 博客(5)
- 收藏
- 关注
转载 数据倾斜解决办法
数据倾斜的原因很大部分是join倾斜和聚合倾斜两大类一、Hive倾斜之group by聚合倾斜原因:分组的维度过少,每个维度的值过多,导致处理某值的reduce耗时很久;对一些类型统计的时候某种类型的数据量特别多,其他的数据类型特别少。当按照类型进行group by的时候,会将相同的group by字段的reduce任务需要的数据拉取到同一个节点进行聚合,而当其中每一组的数据量过大时,会出现其他组的计算已经完成而这个reduce还没有计算完成,其他的节点一直等待这个节点的任务执行完成,所以会一直看到
2022-04-19 22:56:48 430
原创 PEP8规范
1.缩进。空格和Tab不能混合使用2.每行最大长度79,换行使用反斜杠’’3.空行。方法或类之间空两行,列表,模块空1行4.空格使用与禁忌:1)各种右括号前不要加空格。2 )号、冒号、分号前不要加空格。3 )函数的左括号前不要加空格。如Func(1)。4 )序列的左括号前不要加空格。如list[2]。5 )操作符左右各加一个空格,不要为了对齐增加空格。6 )函数默认参数使用的赋值符左右省略空格。5.注释语句首字母大写...
2021-07-27 15:59:47 172
原创 banner studio年会
1⃣️小组成立以来的第一次年会,部分学长们回来了,与他们的交流,我学到了不少知识以外的东西。2⃣️年会上的项目展示,是小组同学努力的成果,希望我们一起努力,再接再厉,都能成为小组的骄傲。3⃣️年会前,不管是大一,大二还是大三的同学,都积极参与年会的准备,让我感觉小组的团队氛围很和谐,有幸能在小组与大家认识和一起学习。...
2021-05-07 22:19:08 133
原创 Kmeans算法与em算法关系
EM算法的思想:E步就是估计隐含类别y的期望值,M步调整其他参数使得在给定类别y的情况下,极大似然估计P(x,y)能够达到极大值。然后在其他参数确定的情况下,重新估计y,周而复始,直至收敛。从K-means里我们可以看出它其实就是EM的体现,E步是确定隐含类别变量c,M步更新其他参数u来使J最小化。总体思想还是一个迭代优化过程,有目标函数,也有参数变量,只是多了个隐含变量,确定其他参数估计隐含变量,再确定隐含变量估计其他参数,直至目标函数最优。 >>>原创链接...
2021-05-02 10:13:28 860
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人