- 博客(9)
- 资源 (5)
- 收藏
- 关注
转载 <转>Apache Spark 内存管理详解
Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本,阅读本文需要读者有一定的 Spark 和 Java 基础,了解 RDD、Shuff
2017-03-31 14:35:01 1218 2
转载 <转> Hive bucket~
hive中table可以拆分成partition,table和partition可以通过‘CLUSTERED BY ’进一步分bucket,bucket中的数据可以通过‘SORT BY’排序。 bucket主要作用: 1. 数据sampling 2. 提升某些查询操作效率,例如mapside join 需要特别注意的是:clustered by和sorted by不会影响数据的导入,这意味
2017-03-30 15:54:47 494
转载 <转>当MongoDB遇见Spark
适宜读者人群 正在使用Mongodb的开发者 传统Spark生态系统 和 MongoDB在Spark生态的角色 传统Spark生态系统 Spark生态系统 那么Mongodb作为一个database, 可以担任什么样的角色呢? 就是数据存储这部分, 也就是图中的黑色圈圈HDFS的部分, 如下图 用MongoDB替换HDFS后的Spark生态系统
2017-03-27 10:25:57 1521
转载 <转>SparkSQL – 从0到1认识Catalyst
最近想来,大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。传统型数据库强势在于其久经考验的SQL优化器经验,弱势在于分布式领域的高可用性、容错性、扩展性等,假以时日,让其经过一定的改造,比如引入Paxos、raft等,强化自己在分布式领域的能力,相信一定会在大数据系统中占有一席之地。相反,大数据相关技术优势在于其天生的扩展性、可用性、容错性等,但其SQL优化器经验却基本全部来自于传统
2017-03-15 14:00:21 431
转载 <转>详解开源大数据引擎Greenplum的架构和技术特点
本文介绍了大数据引擎Greenplum的架构和部分技术特点。从GPDB基本背景开始,在架构的层面上讲解GPDB系统内部各个模块的概貌,然后围绕GPDB的自身特性、并行执行和运维等技术细节,阐述了为什么选择Greenplum作为下一代的查询引擎解决方案。 Greenplum的MPP架构 Greenplum(以下简称GPDB)是一款开源数据仓库,基于开源的PostgreSQL改造而来,主要
2017-03-15 11:42:21 1331
转载 <转>Spark执行模式解析
摘要:本文主要讲了Spark几种不同的执行模式以及其原理 一、执行模式 提交脚本常见的语法: [plain] view plain copy ./bin/spark-submit \ --class --master \ --deploy-mode \ --conf = \ ... #
2017-03-08 09:38:56 339
转载 <转>Kubernetes Web UI搭建
Kubernetes Web UI搭建 这节我以搭建Kubernetes Web UI(kubernetes-dashboard)来简要演示如何使用Docker私有库。 由于我的Kubernetes集群无法直接从gcr.io拉取kubernetes-dashboard的镜像,我事先下载了镜像文件并使用docker load命令加载镜像: # docker load < kub
2017-03-01 16:40:00 1671
转载 <转>kubernetes集群中部署kube-ui
部署kube-ui的环境: Docker版本: 由2台虚机组成的kubernetes集群。master(192.168.246.130)minion(192.168.246.130,192.168.246.132) 192.168.246.126:是自己搭建的私有docker镜像仓库 部署kube-ui的步骤:
2017-03-01 16:25:12 455
转载 <转> kubernetes 1.3 的安装和集群环境部署
简介: Docker:是一个开源的应用容器引擎,可以为应用创建一个轻量级的、可移植的、自给自足的容器。 Kubernetes:由Google开源的Docker容器集群管理系统,为容器化的应用提供资源调度、部署运行、服务发现、扩容缩容等功能。 Etcd:由CoreOS开发并维护的一个高可用的键值存储系统,主要用于共享配置和服务发现。 Flannel:Flannel是 Co
2017-03-01 16:09:44 334
clementine的中文教程
2013-11-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人