自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 资源 (5)
  • 收藏
  • 关注

转载 <转>Apache Spark 内存管理详解

Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本,阅读本文需要读者有一定的 Spark 和 Java 基础,了解 RDD、Shuff

2017-03-31 14:35:01 1218 2

转载 <转> Hive bucket~

hive中table可以拆分成partition,table和partition可以通过‘CLUSTERED BY ’进一步分bucket,bucket中的数据可以通过‘SORT BY’排序。bucket主要作用:1. 数据sampling2. 提升某些查询操作效率,例如mapside join需要特别注意的是:clustered by和sorted by不会影响数据的导入,这意味

2017-03-30 15:54:47 494

转载 <转>当MongoDB遇见Spark

适宜读者人群正在使用Mongodb的开发者传统Spark生态系统 和 MongoDB在Spark生态的角色传统Spark生态系统Spark生态系统那么Mongodb作为一个database, 可以担任什么样的角色呢? 就是数据存储这部分, 也就是图中的黑色圈圈HDFS的部分, 如下图用MongoDB替换HDFS后的Spark生态系统

2017-03-27 10:25:57 1521

转载 <转>SparkSQL – 从0到1认识Catalyst

最近想来,大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。传统型数据库强势在于其久经考验的SQL优化器经验,弱势在于分布式领域的高可用性、容错性、扩展性等,假以时日,让其经过一定的改造,比如引入Paxos、raft等,强化自己在分布式领域的能力,相信一定会在大数据系统中占有一席之地。相反,大数据相关技术优势在于其天生的扩展性、可用性、容错性等,但其SQL优化器经验却基本全部来自于传统

2017-03-15 14:00:21 431

转载 <转>详解开源大数据引擎Greenplum的架构和技术特点

本文介绍了大数据引擎Greenplum的架构和部分技术特点。从GPDB基本背景开始,在架构的层面上讲解GPDB系统内部各个模块的概貌,然后围绕GPDB的自身特性、并行执行和运维等技术细节,阐述了为什么选择Greenplum作为下一代的查询引擎解决方案。Greenplum的MPP架构Greenplum(以下简称GPDB)是一款开源数据仓库,基于开源的PostgreSQL改造而来,主要

2017-03-15 11:42:21 1331

转载 <转>Spark执行模式解析

摘要:本文主要讲了Spark几种不同的执行模式以及其原理一、执行模式提交脚本常见的语法:[plain] view plain copy ./bin/spark-submit \  --class   --master  \  --deploy-mode  \  --conf = \  ... #

2017-03-08 09:38:56 339

转载 <转>Kubernetes Web UI搭建

Kubernetes Web UI搭建这节我以搭建Kubernetes Web UI(kubernetes-dashboard)来简要演示如何使用Docker私有库。由于我的Kubernetes集群无法直接从gcr.io拉取kubernetes-dashboard的镜像,我事先下载了镜像文件并使用docker load命令加载镜像:# docker load < kub

2017-03-01 16:40:00 1671

转载 <转>kubernetes集群中部署kube-ui

部署kube-ui的环境:Docker版本: 由2台虚机组成的kubernetes集群。master(192.168.246.130)minion(192.168.246.130,192.168.246.132) 192.168.246.126:是自己搭建的私有docker镜像仓库部署kube-ui的步骤:

2017-03-01 16:25:12 455

转载 <转> kubernetes 1.3 的安装和集群环境部署

简介:Docker:是一个开源的应用容器引擎,可以为应用创建一个轻量级的、可移植的、自给自足的容器。Kubernetes:由Google开源的Docker容器集群管理系统,为容器化的应用提供资源调度、部署运行、服务发现、扩容缩容等功能。Etcd:由CoreOS开发并维护的一个高可用的键值存储系统,主要用于共享配置和服务发现。Flannel:Flannel是 Co

2017-03-01 16:09:44 334

clementine的中文教程

clementine的中文教程clementine的中文教程clementine的中文教程clementine的中文教程clementine的中文教程

2013-11-18

clementine基础培训一

clementine基础培训一

2013-11-18

Hbase入门与使用

Hbase入门与使用

2013-07-23

Hadoop_eclipse-plugin编译方法

Hadoop_eclipse-plugin编译方法

2012-12-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除