漫谈大数据
文章平均质量分 83
谈一谈大数据时代的数据开发、管理和使用的方方面面
木东居士
数据搬运工一只,欢迎光临个人小站:http://www.mdjs.info/about/
展开
-
漫谈千亿级数据优化实践:一次数据优化实录
0x00 前言 即使没有数据倾斜,千亿级的数据查询对于系统也是一种巨大负担,对于数据开发来说,如何来优化它,既是挑战,也是机遇!在上一篇文章 《漫谈千亿级数据优化实践:数据倾斜(纯干货)》中,我们分享了一些在千亿级数据优化实践中和数据倾斜相关的内容。本文将分享千亿级数据优化的另个一点:如何使用使用数据!注意: 本文会限定一些业务场景和技术架构,因此解决方法会局限于此。很多问原创 2017-06-19 19:44:24 · 5450 阅读 · 2 评论 -
漫谈数据仓库之维度建模
0x00 前言 下面的内容,是笔者在学习和工作中的一些总结,其中概念性的内容大多来自书中,实践性的内容大多来自自己的工作和个人理解。由于资历尚浅,难免会有很多错误,望批评指正!概述数据仓库包含的内容很多,它可以包括架构、建模和方法论。对应到具体工作中的话,它可以包含下面的这些内容:以Hadoop、Spark、Hive等组建为中心的数据架构体系。各种数据建模方法,如维度建模。调度系统、元数原创 2017-01-07 14:57:30 · 22346 阅读 · 2 评论 -
漫谈数据仓库之SCD(缓慢变化维度)
0x00 前言本文会分享数据仓库中和缓慢变化维度相关的内容。在看之前建议回顾一下和维度建模相关的知识点,可参考这篇博客:《漫谈数据仓库之维度建模》。为什么会分享这个听起来很奇怪的东西?因为站在的笔者的视角中,只要是做数据仓库的小伙伴们,在工作中基本上都会接触和维度建模相关的内容,而谈到维度建模,就少不了会和维度表打交道。我们要谈的就是维度表相关的知识点。在正式开始之前,先解释一下什么是缓慢变化维度。原创 2017-04-11 11:16:02 · 3915 阅读 · 0 评论 -
漫谈千亿级数据优化实践:数据倾斜(纯干货)
0x00 前言 数据倾斜是大数据领域绕不开的拦路虎,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎。 迈的过去,将会海阔天空!迈不过去,就要做好准备:很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。郑重声明: 话题比较大,技术要求也比较高,笔者尽最大的能力来写出自己的理解,写的不对和不好的地方大家一起交流。有些例子不是特别严谨,一原创 2017-04-23 18:29:24 · 4219 阅读 · 1 评论 -
大数据环境下该如何优雅地设计数据分层
0x00 前言 最近出现了好几次同样的对话场景: 问:你是做什么的? 答:最近在搞数据仓库。 问:哦,你是传统行业的吧,我是搞大数据的。 答:……发个牢骚,搞大数据的也得建设数据仓库吧。而且不管是传统行业还是现在的互联网公司,都需要对数据仓库有一定的重视,而不是谈一句自己是搞大数据的就很厉害了。数据仓库更多代表的是一种对数据的管理和使用的方式,它是一整套包括了etl、调原创 2017-06-17 21:47:03 · 14070 阅读 · 6 评论 -
漫谈数据仓库之基本概念总结(不断更新)
0x00 前言 整理一些数据仓库中的常用概念。大部分概念不是照搬书上的准确定义,会加入很多自己的理解。0x01 概念数据仓库(Data Warehouse) 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。个人理解,数据仓库不单单是一个概念,其实算是对数据管理和使用的一种方法论,它包括了如何原创 2017-06-17 21:48:47 · 3742 阅读 · 0 评论 -
Google和Linkedin的老司机是如何管理海量数据的
0x00 前言 本篇分享是元数据管理的内容,主要参考Google在2016年发布的论文《Goods: Organizing Google’s Datasets》以及 Linkedin在2016年新开源的项目:WhereHows,当然也有笔者的一点理解。Google的论文整体描述十分详细,可以作为理论来学习,LinkedIn已经开源了一个版本的系统,可以看成最佳实践。两者结合起来,还是很能拓展思原创 2017-06-17 21:49:18 · 3042 阅读 · 0 评论 -
漫谈数据质量监控
0x00 前言 往往那些不起眼的功能,最能毁掉你的工作成果。本篇分享一些和数据质量监控相关的内容。数据质量监控是一个在快速发展的业务中最容易被牺牲和忽略的功能,但是它确实至关重要的。 假设你做了100个业务,一旦有其中一个业务在某个时间段出现了数据异常,这个异常还是由业务方发现的而不是你,根据我的经验是,它带来的负面影响会超过你之前做的100个业务带来的正面影响。文章结构数据质量监控的意义和价原创 2017-06-17 21:50:36 · 11736 阅读 · 1 评论 -
漫谈数据仓库之拉链表(原理、设计以及在Hive中的实现)
0x00 前言 本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。全文由下面几个部分组成:先分享一下拉链表的用途、什么是拉链表。通过一些小的使用场景来对拉链表做近一步的阐释,以及拉链表和常用的切片表的区别。举一个具体的应用场景,来设计并实现一份拉链表,最后并通过一些例子说明如何使用我们设计的这张表(因为现在Hive的大规模使用原创 2017-01-07 20:15:32 · 62247 阅读 · 12 评论