大数据之路读书笔记
文章平均质量分 92
本专栏为个人看大数据读书之路的笔记,只为记录自己的学习过程,如侵可删,私信联系
潘小磊
功不唐捐,玉汝于成
展开
-
大数据之路读书笔记-16数据应用
生意参谋诞生于2011年,最早是应用于阿里巴巴B2B市场的数据工具,2013年10月才正式进入淘系。当时阿里淘系的数据产品曾一度多达到38个,不同产品的统计方式不同,相同指标在不同产品中的数据也有所差异,这给商家带来不少的困扰。为了保证用户体验,从2014年起,依托阿里巴巴内部的OnData体系建设的、在数据一致性方面更具优势的生意参谋陆续整合量子恒道、数据魔方等其他数据产品,并在2015年年底升级为官方统一的商家数据产品平台。1.数据监控2.专题分析3.应用分析。...原创 2022-07-19 11:43:14 · 1625 阅读 · 0 评论 -
大数据之路读书笔记-15数据质量
在间里巴巴数据仓库建设过程中,经过不断的实践,慢慢摸索出一套适合大数据的数据质量方法,在满足以上四个原则的基础上,为阿里巴巴数据做基础保障。阿里巴巴业务复杂,种类繁多的产品每天产生数以亿计的数据,每天的数据量都在PB级以上,而数据消费端的应用又层出不穷,各类数据产品如雨后春笋般出现。为了不断满足这些数据应用的需要,数据仓库的规模在不断膨胀,同时数据质量的保障也越来越复杂。基于这些背景,我们提出了一套数据质量建设方法,如图15.2所示。这套方法主要包括如下几个方面。1.消费场景知晓。...原创 2022-07-18 14:02:09 · 803 阅读 · 0 评论 -
大数据之路读书笔记-14存储和成本管理
在大数据时代,移动互联、社交网络、数据分析云服务等应用迅速普及,对数据中心提出了革命性的需求,存储管理已经成为IT核心。对于数据爆炸式的增长,存储管理也将面临着一系列挑战。如何有效地降低存储资源的消耗,节省存储成本,将是存储管理孜孜追求的目标。本章主要从数据压缩、数据重分布、存储治理项优化、生命周期管理等的角度介绍存储管理优化。...原创 2022-07-18 09:29:30 · 694 阅读 · 0 评论 -
大数据之路读书笔记-13计算管理
目前内部MaxCompute集群上有200多万个任务,每天存储资源、计算资源消耗都很大。如何降低计算资源的消耗,提高任务执行的性能,提升任务产出的时间,是计算平台和ETL开发工程师孜孜追求的目标。本章分别从系统优化和任务优化面介绍计算优化。...原创 2022-07-15 11:25:05 · 683 阅读 · 0 评论 -
大数据之路读书笔记-12元数据
按照传统的定义,元数据( Metadata )是关于数据的数据。元数据打通了源数据、数据仓库、数据应用,记录了数据从产生到消费的全过程。元数据主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ETL 的任务运行状态。在数据仓库系统中,元数据可以帮助数据仓库管理员和开发人员非常方便地找到他们所关心的数据,用于指导其进行数据管理和开发工作,提高工作效率。将元数据按用途的不同分为两类:技术元数据( Technical Metadata) 和业务元数据( Business Metadata原创 2022-07-14 11:32:15 · 164 阅读 · 0 评论 -
大数据之路读书笔记-11事实表设计
事实表作为数据仓库维度建模的核心,紧紧围绕着业务过程来设计,通过获取描述业务过程的度量来表达业务过程,包含了引用的维度和与业务过程有关的度量。事实表中一条记录所表达的业务细节程度被称为粒度。通常粒度可以通过两种方式来表述:一种是维度属性组合所表示的细节程度:一种是所表示的具体业务含义。作为度量业务过程的事实,一般为整型或浮点型的十进制数值,有可加性、半可加性和不可加性三种类型。可加性事实是指可以按照与事实表关联的任意维度进行汇总。半可加性事实只能按照特定维度汇总,不能对所有维度汇总,比如库存可以按照地点原创 2022-07-13 16:56:36 · 955 阅读 · 0 评论 -
大数据之路读书笔记-10维度设计
维度是维度建模的基础和灵魂。在维度建模中,将度量称为“事实”将环境描述为“维度”,维度是用于分析事实所需要的多样环境。例如,在分析交易过程时,可以通过买家、卖家、商品和时间等维度描述交易发生的环境。维度所包含的表示维度的列,称为维度属性。维度属性是查询约束条件、分组和报表标签生成的基本来源,是数据易用性的关键。例如,在查询请求中,获取某类目的商品、正常状态的商品等,是通过约束商品类目属性和商品状态属性来实现的;统计淘宝不同商品类目的每日成交金额,是通过商品维度的类目属性进行分组的;我们在报表中看到的类目、原创 2022-07-12 13:59:20 · 886 阅读 · 0 评论 -
大数据之路读书笔记-09阿里巴巴数据整合及管理体系
面对爆炸式增长的数据,如何建设高效的数据模型和体系,对这些数据进行有序和有结构地分类组织和存储,避免重复建设和数据不一致性,保证数据的规范性, 直是大数据系统建设不断追求的方向。OneData 即是阿里巴巴内部进行数据整合及管理的方法体系和工具。阿里巴巴的大数据工程师在这一体系下,构建统 、规范、可共享的全域数据体系,避免数据的冗余和重复建设,规避数据烟囱和不一致性,充分发挥阿里巴巴在大数据海量、多样性方面的独特优势。借助统一化数据整合及管理的方法体系,我们构建了阿里巴巴的数据公共层,并可以帮助相似的大数原创 2022-07-11 14:30:17 · 1612 阅读 · 0 评论 -
大数据之路读书笔记-08大数据领域建模综述
随着DT时代互联网、智能设备及其他信息技术的发展,数据爆发式增长,如何将这些数据进行有序、有结构地分类组织和存储是我们面临的一个挑战。如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置;如果把数据看作城市的建筑,我们希望城市规划布局合理:如果把数据看作电脑文件和文件夹,我们希望按照自己的习惯有很好的文件夹组织方式,而不是糟糕棍乱的桌面,经常为找一个文件而不知所措。数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。 Linux 的创始人 Torvalds 一段关于原创 2022-07-11 10:16:03 · 368 阅读 · 0 评论 -
大数据之路读书笔记-07数据挖掘
进人 DT 时代,阿里巴巴作为全球最大的零售电子商务平台,正推动着大规模数据采集、计算、挖掘和产品化服务的生态圈构建。 2016年财报显示,阿里巴巴集团平台成交额突破3万亿元,年度活跃买家达4.23 亿,已成为全球最大的移动经济实体。与 Google Face bookAmazon 等世界上其他先进的互联网公司一样,高速增长的业务必然催生大数据挖掘应用的蓬勃发展。当我们从业务系统中能够轻松采集到海量数据时,往往会发现里面的有效数据信息却越来越稀疏,有效数据和无效数据的增长率是不成比例的。因此,如何从海量数据原创 2022-07-08 16:54:58 · 734 阅读 · 0 评论 -
大数据之路读书笔记-06数据服务
数据部门产出的海量数据,如何能方便高效地开放出去,是我们一直想要解决的难题。在没有数据服务的年代,数据开放的方式简单、粗暴,一般是直接将数据导出给对方。这种方式不仅低效,还带来了安全隐患等诸多问题。为此,我们在数据服务这个方向上不断探索和实践。最早的数据服务雏形诞生于 2010 年,至今已有7个年头。在这期间,随着我们对业务的理解不断加深,同时也得益于新技术的持续涌现,对数据服务架构也进行了多次升级改造。服务架构的每次升级,均在性能、稳定性、扩展性等方面有所提升,从而能更好地服务于用户。本章接下来的内容,将原创 2022-07-08 15:02:43 · 547 阅读 · 0 评论 -
大数据之路读书笔记-05实时技术
在大数据系统中,离线批处理技术可以满足非常多的数据使用场景需求,但在 DT 时代, 每天面对的信息是瞬息万变的,越来越多的应用场景对数据的时效性提出了更高的要求。数据价值是具有时效性的,在一条数据产生的时候,如果不能及时处理并在业务系统中使用,就不能让数据保持最高的“新鲜度”和价值最大化。如图 5.1 所示是 2016 年“双 11”全球狂欢节当天,面向媒体开发的数据直播大屏在 24 点时定格的成交数据:1207 亿。在前台实时直播的数据,实际上是阿里实时计算系统在承载。直播大屏对数据有着非常高的精度要求,原创 2022-07-08 09:52:25 · 1301 阅读 · 0 评论 -
大数据之路读书笔记-04离线数据开发
从采集系统中收集了大量的原始数据后,数据只有被整合和计算,才能被用于洞察商业规律,挖掘潜在信息,从而实现大数据价值,达到赋能于商业和创造价值的目的。面对海量的数据和复杂的计算,阿里巴巴的数据计算层包括两大体系:数据存储及计算平台 (离线计算平MaxCompute 实时计算平台 StreamCompute 、数据整合及管理体系( OneData)本章主要介绍 MaxCompute 和阿里巴巴内部基于 MaxCompute的大数据开发套件,并对在数据开发过程中经常遇到的问题和相关解决方案进行介绍。阿里数据研发原创 2022-07-07 15:41:29 · 1123 阅读 · 0 评论 -
大数据之路读书笔记-03数据同步
如第一章所述,我们将数据采集分为日志采集和数据库数据同步两部分。数据同步技术更通用的含义是不同系统间的数据流转,有多种不同的应用场景。主数据库与备份数据库之间的数据备份,以及主系统与子系统之间的数据更新,属于同类型不同集群数据库之间的数据同步。另外,还有不同地域、不同数据库类型之间的数据传输交换,比如分布式业务系统与数据仓库系统之间的数据同步。对于大数据系统来说,包含数据从业务系统同步进入数据仓库和数据从数据仓库同步进入数据服务或数据应用两个方面。本章侧重讲解数据从业务系统同步进入数据仓库这个环节,但其适用原创 2022-07-07 10:15:58 · 662 阅读 · 0 评论 -
大数据之路读书笔记-02日志采集
数据采集作为阿里大数据系统体系的第 环尤为重要。因此阿里巴巴建立了一套标准的数据采集体系方案,致力全面、高性能、规范地完成海量数据的采集,并将其传输到大数据平台。本章主要介绍数据来中的日志采集部分。阿里巴巴的日志采集体系方案包括两大体系: Ap us.JS Web(基于浏览器)日志采集技术方案: UserTrack APP 端(无线客户端日志采集技术方案。本章从浏览器的页面日志采集、无线客户端的日志采集以及我们遇到的日志采集挑战三块内容来阐述间里巴巴的日志采集经验。浏览器的页面型产品/服务的日志采集可分原创 2022-07-06 16:25:56 · 1494 阅读 · 1 评论 -
大数据之路读书笔记-01总述
2014 年,马云提出,“人类正从 IT 时代走向 DT 时代 ”如果说IT时代是以自我控制、自我管理为主,那么到了 DT (Data Technology) 时代,则是以服务大众、激发生产力为主。以互联网(或者物联网)、云计算、大数据和人工智能为代表的新技术革命正在渗透至各行各业,悄悄地改变着我们的生活。在DT 时代,人们比以往任何时候更能收集到更丰富的数据。 JDC的报告显示:预计到 2020 年,全球数据总量将超过 40ZB (相当于 40万亿 GB ),这一数据量是 2011 年的 22 倍!正在原创 2022-07-05 10:47:56 · 426 阅读 · 0 评论