分布式系统
Mon在客户端和数据端都存在,两者之间会有一个通信来保持相关节点信息的更新,客户端通过Mon服务和对应的信息可以计算得到想要访问的具体数据的具体文件路径,以便于直接访问。用户第一步先访问元数据的服务器节点,这个元数据服务器为中间控制,每一次访问真正数据前,都需要先访问元数据服务节点,服务器节点存储的是元数据,元数据是描述数据的数据,元数据存储了真实数据的描述信息,包含具体数据的路径以及相关信息;Spark是基于内存优化的分布式大数据计算框架,分而治之,将大任务划分成小任务,引入RDD概念。
复制链接