![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
读书笔记
文章平均质量分 81
新手路上的程序员
这个作者很懒,什么都没留下…
展开
-
Streaming Systems 笔记一
将对无界数据的处理分为4个方面:1.和时间无关 没有Event Time2.近似计算3.Windowing by Processing Time4.Windowing by Event Time处理4个方面的通用方式:3个W一个H1.What results are calculated? Answered via transformations 计算的结果是什么?答案...原创 2021-10-31 19:08:50 · 416 阅读 · 0 评论 -
数据密集型应用系统设计 笔记二
分布式数据系统数据复制通过数据复制方案,人们通常希望达到以下目的:1.使数据在地理位置上更接近用户,从而降低访问延迟2.当部分组件出现位障,系统依然可以继续工作,从而提高可用性。3.扩展至多台机器以同时提供数据访问服务,从而提高读吞吐量。三种流行的复制数据变化的方法:主从复制、多主节点复制和主节点复制。几乎所有的分布式数据库都使用上述方法中的某一种, 而三种方法各有优缺点。主...原创 2019-12-17 11:31:23 · 301 阅读 · 0 评论 -
离线和实时大数据开发实战 笔记一
这本书也算是二刷了,推荐可以看看。对大数据整体有一定的了解。1.OLTP(Online Transaction processing)和OLAP (Online Analytical Processing)从命名上就可以看出轻微的区别,一个是事物型,一个是分析型。2.2.数据建模,最近刚好在做这方面的工作。以我司为例,用的是维度建模。维度建模客观世界分为度量和上下文。度量简单的说就是一...原创 2019-05-04 15:05:46 · 2534 阅读 · 1 评论 -
离线和实时大数据开发实战 笔记二
1.HDFS优势:(1) 处理超大文件(2)运行于廉价的商用机器集群上(3)高容错性和高可靠性,通过副本机制实现。(4)流式的访问数据,HDFS的设计建立在更多地响应」次写人、多次读写”任务的基础上,这意味着一个数据集一由数据源生成,就会被复制分发到不同的存储节点中,然后响应各种各样的数据分析任务请求。在多数情况下,分析任务都会涉及数据集的大部分数据,也就是说,对HDFS来说,请求读取整个数据...原创 2019-05-04 19:57:32 · 990 阅读 · 0 评论 -
离线和实时大数据开发实战 笔记三
hive分区:分区在创建表的时候使用 PARTITIONED BY从句定义CREATE TABLE logs (ts BIGINT , line STRING) PARTITIONED BY (dt STR NG,country STRING); 以 dt和country分区分桶:在表或者分区中使用桶通常有两个原因:是为了高效查询,桶在表中加入了特殊的结构,Hive 在查询的时候...原创 2019-05-05 14:31:29 · 831 阅读 · 1 评论 -
离线和实时大数据开发实战 笔记四
维度建模:事实表:简单的说就度量值 如 销售金额维度表:就是5个W When Where What Who Why星形架构和雪花架构:中间均为事实表,事实表一般都是最细维度,订单事实表一般都是订单项为基准。例如 中间是订单金额,订单肯定会关联产品,那么产品可能就会有产品的名称,拥有者,注册地等。星形架构就是将这些信息都冗余在产品维度表中,而雪花架构就是在产品的维表中在建立外键关...原创 2019-05-05 17:38:56 · 715 阅读 · 1 评论 -
离线和实时大数据开发实战 笔记五
主要是实时计算 stream strom和Flink都有介绍 这里主要是sprakSpark CoreSpark 通过引人弹性分布式数据集( RDD )以及 RDD 丰富的动作操API ,非常好地支持了 DAG 和迭代计算Spark 通过内存计算和缓存数据非常好地支持了迭代计算和 DAG 计算的数据共享,减少了数据读取的 IO 开销,大大提高了数据处理速度。RDD 就是一个数据集...原创 2019-05-06 10:49:11 · 411 阅读 · 0 评论 -
数据密集型应用系统设计 笔记一
一 数据系统基础: 一个应用必须完成预期的多种需求,主要包括功能性需求(即应该做什么,比如各种存储、检索、搜索和处理数据)和一些非功能性需求(即常规特性、例如安全性 、可靠性、合规性、可伸缩性 、兼容性和可维护性)。然后在谈应用的可靠性、可扩展性和可维护性。可靠性: 1.应用程序执行用户所期望的功能。 2.可以容忍用户出现错误或者不正确的软件使用方法。 3.性...原创 2019-12-05 15:34:13 · 1045 阅读 · 0 评论