数据开发interview

版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/zx8167107/article/details/98969203

数仓分层的原理、架构、用途
rf模型细节,模型搭建 

抛开现有的大数据平台(猛犸)如何部署模型

大数据为什么会有数据倾斜,如何优化?
python 进行etl的细节

----------------------------

hadoop HA的原理和流程

fileimage和edit文件原理和使用过程

spark on yarn的启动流程

数据倾斜

tez相关

linux shell如何找到系统中占用大量磁盘空间的一个大文件

spark调优:实际解决的一个典型问题

-----------------------------

业务中整个数据处理流程

-----------------------------

独立实现数据仓库需要哪些资源、模块、具体步骤

数仓分层原理

Hive UDAF实现细节

sparkStreaming与flink区别

sparkStreaming两条流join的实现原理

https://blog.csdn.net/wangpei1949/article/details/83892162

自己工作和业务中的典型亮点案例

数仓中维表过大导致join数据倾斜的优化办法

smb分桶join,桶的数量过多如何处理

https://www.jianshu.com/p/004462037557

--------------------------------------------

hive sql如何提取某个用户的最近一条记录

Hive的分组排序方法-row_number

https://blog.csdn.net/u014571011/article/details/51907822

展开阅读全文

没有更多推荐了,返回首页