2-19号学习笔记

最新推荐文章于 2024-07-12 17:53:13 发布

荩辞

最新推荐文章于 2024-07-12 17:53:13 发布

阅读量61

点赞数

分类专栏：大数据学习文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zlmldylinke/article/details/113857138

版权

Spark 和 scala 相关
数仓项目和采集项目有关

大数据 3件事采集存储计算和分析
采存算

hadoop 历史 1和 2区别
面试
hadoop2 支持高可用
常驻进程
container 是 yarn-child
AM在yarnchild

！为什么spark有standalong 面试 9:17
Spark历史
面试

container 容器机制可用使得其他程序也能使用通过调用的方式 api

mapreduce阶段有3次落盘过程中迭代计算还有落盘过程

中间状态 spark 比MR快的原因
算子 RDD里面的方法
一种心理学的原理

结构化数据有行有列
半结构化数据日志文件
非结构化数据其他数据

sparksql相对于 hive sql来写代码

spark的官网
在这里插入图片描述

hadoop也可以求 pi 精确度没有
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar pi 1 1
在这里插入图片描述

蒙特卡罗算法

collect行动算子收集并打印

flatMap先map后flat 转换字符串数组再拍平

reduceByKey 走了shuffle阶段

res0
:q 退出

4040 看spark任务的

–》

jpsall 看到的是进程
driver 是线程
excutor是运算对象

AM和container都是进程

11:43 3种端口号总结 08——standalone的部署和启动

在这里插入图片描述

下午第一节课

历史服务器

为什么配置2个历史服务器的地址

4个端口号

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2-19号学习笔记

Spark 和 scala 相关数仓项目和采集项目有关大数据 3件事采集存储计算和分析采存算hadoop 历史 1和 2区别面试hadoop2 支持高可用常驻进程container 是 yarn-childAM在yarnchild！为什么spark有standalong 面试 9:17Spark历史面试container 容器机制可用使得其他程序也能使用通过调用的方式 apimapreduce阶段有3次落盘过程中迭代计算还有落盘过程中间状
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。