自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 Spark源码解析:DStream

0x00 前言 本篇是Spark源码解析的第二篇,主要通过源码分析Spark Streaming设计中最重要的一个概念——DStream。 本篇主要来分析Spark Streaming中的Dstream,重要性不必多讲,明白了Spark这个几个数据结构,容易对Spark有一个整体的把握。和RD...

2017-06-23 16:53:38

阅读数 7354

评论数 0

原创 Spark源码解析:RDD

0x00 前言 本篇是Spark源码解析的第一篇,主要通过源码分析Spark设计中最重要的一个概念——RDD。 本文会主要讲解RDD的主要概念和源码中的设计,并通过一个例子详细地讲解RDD是如何生成的和转换的。文章结构 先回顾一下RDD的一些特征以及几个基本概念 RDD源码分析,整体的源码设计...

2017-06-23 16:53:21

阅读数 1377

评论数 1

原创 漫谈千亿级数据优化实践:一次数据优化实录

0x00 前言 即使没有数据倾斜,千亿级的数据查询对于系统也是一种巨大负担,对于数据开发来说,如何来优化它,既是挑战,也是机遇! 在上一篇文章 《漫谈千亿级数据优化实践:数据倾斜(纯干货)》中,我们分享了一些在千亿级数据优化实践中和数据倾斜相关的内容。本文将分享千亿级数据优化的另个一点...

2017-06-19 19:44:24

阅读数 4471

评论数 2

原创 漫谈并发编程:Future模型(Java、Clojure、Scala多语言角度分析)

0x00 前言 其实Future模型离我们并不远,如果你接触过Spark、Hadoop这些优秀的开源项目,那么在运行程序的时候关注一下他们的输出日志,一不小心你就会发现Future的身影。 在并发编程领域有很多优秀的设计模式,比如常见的Producer-Consumer模式、Pipeline模...

2017-06-18 22:18:59

阅读数 904

评论数 0

原创 漫谈并发编程:用MPI进行分布式内存编程(入门篇)

0x00 前言 本篇是MPI的入门教程,主要是为了简单地了解MPI的设计和基本用法,方便和现在的Hadoop、Spark做对比,并尝试理解它们之间在设计上有什么区别。 身处Hadoop、Spark这些优秀的分布式开发框架蓬勃发展的今天,老的分布式编程模型是否没有必要学习?这个很难回答,但是我更...

2017-06-18 22:18:20

阅读数 5428

评论数 0

原创 漫谈并发编程:Actor模型

0x00 前言一般来说有两种策略用来在并发线程中进行通信:共享数据和消息传递。熟悉c和java并发编程的都会比较熟悉共享数据的策略,比如java程序员就会常用到java.util.concurrent包中同步、锁相关的数据结构。使用共享数据方式的并发编程面临的最大的一个问题就是数据条件竞争(dat...

2017-06-18 22:16:31

阅读数 10143

评论数 0

原创 漫谈数据质量监控

0x00 前言 往往那些不起眼的功能,最能毁掉你的工作成果。 本篇分享一些和数据质量监控相关的内容。数据质量监控是一个在快速发展的业务中最容易被牺牲和忽略的功能,但是它确实至关重要的。 假设你做了100个业务,一旦有其中一个业务在某个时间段出现了数据异常,这个异常还是由业务方发现的而不是你,根...

2017-06-17 21:50:36

阅读数 8543

评论数 1

原创 Google和Linkedin的老司机是如何管理海量数据的

0x00 前言 本篇分享是元数据管理的内容,主要参考Google在2016年发布的论文《Goods: Organizing Google’s Datasets》以及 Linkedin在2016年新开源的项目:WhereHows,当然也有笔者的一点理解。 Google的论文整体描述十分详细,可以...

2017-06-17 21:49:18

阅读数 2090

评论数 0

原创 漫谈数据仓库之基本概念总结(不断更新)

0x00 前言 整理一些数据仓库中的常用概念。大部分概念不是照搬书上的准确定义,会加入很多自己的理解。 0x01 概念数据仓库(Data Warehouse) 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据...

2017-06-17 21:48:47

阅读数 2660

评论数 0

原创 大数据环境下该如何优雅地设计数据分层

0x00 前言 最近出现了好几次同样的对话场景: 问:你是做什么的? 答:最近在搞数据仓库。 问:哦,你是传统行业的吧,我是搞大数据的。 答:…… 发个牢骚,搞大数据的也得建设数据仓库吧。而且不管是传统行业还是现在的互联网公司,都需要对数据仓库有一定的重视,而不是谈一句...

2017-06-17 21:47:03

阅读数 12035

评论数 6

提示
确定要删除当前文章?
取消 删除