2-19号学习笔记

Spark 和 scala 相关
数仓项目 和 采集项目有关

大数据 3件事 采集 存储 计算和分析
采存算

hadoop 历史 1和 2区别
面试
hadoop2 支持高可用
常驻进程
container 是 yarn-child
AM在yarnchild

!为什么spark有standalong 面试 9:17
Spark历史
面试

container 容器机制 可用使得 其他程序也能使用 通过调用的方式 api

mapreduce阶段 有3次落盘过程中 迭代计算 还有落盘过程

中间状态 spark 比MR快的原因
算子 RDD里面的方法
一种心理学的原理

结构化数据 有行有列
半结构化数据 日志文件
非结构化数据 其他数据

sparksql相对于 hive sql来写代码

spark的官网
在这里插入图片描述

hadoop也可以求 pi 精确度 没有
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar pi 1 1
在这里插入图片描述

蒙特卡罗算法

collect行动算子 收集并打印

flatMap先map后flat 转换字符串数组 再拍平

reduceByKey 走了shuffle阶段

res0
:q 退出

4040 看spark任务的

–》

jpsall 看到的是 进程
driver 是线程
excutor是运算对象

AM和container都是进程

11:43 3种端口号总结 08——standalone的部署和启动

在这里插入图片描述

下午第一节课

历史服务器

为什么配置2个历史服务器的地址

4个端口号

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值