Spark 和 scala 相关
数仓项目 和 采集项目有关
大数据 3件事 采集 存储 计算和分析
采存算
hadoop 历史 1和 2区别
面试
hadoop2 支持高可用
常驻进程
container 是 yarn-child
AM在yarnchild
!为什么spark有standalong 面试 9:17
Spark历史
面试
container 容器机制 可用使得 其他程序也能使用 通过调用的方式 api
mapreduce阶段 有3次落盘过程中 迭代计算 还有落盘过程
中间状态 spark 比MR快的原因
算子 RDD里面的方法
一种心理学的原理
结构化数据 有行有列
半结构化数据 日志文件
非结构化数据 其他数据
sparksql相对于 hive sql来写代码
spark的官网
hadoop也可以求 pi 精确度 没有
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar pi 1 1
蒙特卡罗算法
collect行动算子 收集并打印
flatMap先map后flat 转换字符串数组 再拍平
reduceByKey 走了shuffle阶段
:q 退出
4040 看spark任务的
–》
jpsall 看到的是 进程
driver 是线程
excutor是运算对象
AM和container都是进程
11:43 3种端口号总结 08——standalone的部署和启动