![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据hadoop
大数据hadoop
鑫King
热爱coding.喜欢java,专注遥感deep learning,欢迎各位一起研讨
展开
-
SparkSQL的3种Join实现
SparkSQL的3种Join实现引言Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。SparkSQL作为大数据领域的SQL实现,自然也对Join操作做了不少优化,今天主要看一下在SparkSQL中对于Join,常见的3种实现。SparkSQL的3种Join实现Broadc...转载 2020-04-16 21:37:40 · 217 阅读 · 0 评论 -
Spark中RDD与DAG的执行逻辑
Spark中RDD与DAG的执行逻辑核心:1.当Driver端向master申请完成后,调用worker,这时worker会同Driver端进行通信,将执行程序接收,从而执行逻辑。2.当数据的规则被切分放到各个worker中时,因为规则的不完整,这时Driver端会将将各切分的数据进行拉回组合,形成完整的规则后,再以广播的形式(broadcast)发送到不同worker上。使得规则完整,从而...原创 2020-04-13 00:56:47 · 210 阅读 · 0 评论 -
akka运行原理总结
akka运行原理总结核心:ActorSystem创建多个actor和actorRef并进行管理:1.actor发送消息时,通过actorRef反射,将消息传到Dispacher分发器,分发器管理着所有的actor,其将对应的信息,分发给对应的MailBox,最后到另一个actor.2.actor接收到消息后,通过sender() ! “消息” ,将消息返回。...原创 2020-04-08 00:58:39 · 350 阅读 · 0 评论 -
scala集合层次图
scala集合层次图原创 2020-04-06 17:01:26 · 285 阅读 · 0 评论 -
hdfs计算向数据偏移思想
hdfs计算向数据偏移思想核心:主要是实现数据的分治思想,主机优先和自己距离最近的datanode获取数据,通过seek(偏移量)实现。如:当文件分为两个数据块block1和bloack2.时,且两台服务器1和2均可调用block2中的数据,若服务器1就具有自己所需读取的block2时,则就近调用。不再通过服务器2去读取代码测试:public class TestHDFS { p...原创 2020-03-31 02:56:35 · 614 阅读 · 1 评论 -
hadoop HA的部分配置及linnux命令
hadoop HA的部分配置及linnux命令修改该文件,添加IP 名称:sudo vim /etc/hosts远程拷贝:scp -r ./zookeeper-3.4.6/ slave3:`pwd`解压:tar xf生成密匙:ssh-keygen -t dsa -P '' -f ./id_dsacore-site.xml<property> <nam...原创 2020-03-30 02:29:32 · 75 阅读 · 0 评论 -
hadoop高可用(HA)集群搭建思想
hadoop高可用(HA)集群搭建思想核心:高可用(High Available)主要解决单点登陆的数据同步问题。通过jourNODE半存储的形式,解决如果主设备(NameNode)崩溃的情况,增加了一个备用设备(NameNode)。同时结合zookeeper进行自动管理。注:2.x只允许配置一个副NN,3.x允许最多5个2.配置流程:3.配置文件(1)core-site.xml,配...原创 2020-03-30 00:46:31 · 98 阅读 · 0 评论