- 博客(441)
- 资源 (11)
- 收藏
- 关注
原创 spark 之数据湖
基本使用 可参见: https://docs.delta.io/2.3.0/quick-start.html#language-scala。
2024-05-22 11:43:34
240
原创 Web 服务相关概念
无状态请求,服务器端所能够处理的数据全部来自请求所携带的信息,无状态服务对于客户端的单次请求,不依赖于其他请求,处理一次请求的信息都包含在该请求里。总结:有状态服务需要大量的信息和状态,在性能方面要稍逊于无状态服务器,无状态在处理简单服务方面有优势,服务之间没有联系,易于扩展,但处理复杂任务需要额外的组件来协助(有状态服务的形式实现)。状态是web服务的概念,比如不需要登录的浏览门户网站就是无状态的,需要登陆转账买东西这种就是有状态的。Session,可以使http服务转换为有状态服务。
2024-02-22 10:41:06
387
原创 Hive 表 /spark表(纯SQL)
分区提供了一个隔离数据和优化查询的可行方案,但是并非所有的数据集都可以形成合理的分区,分区的数量也不是越多越好,过多的分区条件可能会导致很多分区上没有数据。当调用 HashMap 的 put() 方法存储数据时,程序会先对 key 值调用 hashCode() 方法计算出 hashcode,然后对数组长度取模计算出 index,最后将数据存储在数组 index 位置的链表上,链表达到一定阈值后会转换为红黑树 (JDK1.8+)。分区为 HDFS 上表目录的子目录,数据按照分区存储在子目录中。
2023-11-17 11:28:40
396
原创 数据仓库相关
在阿里巴巴的数据体系中,我们建议将数据仓库分为三层,自下而上为:数据引入层(ODS,Operation Data Store)、数据公共层(CDM,Common Data Model)和数据应用层(ADS,Application Data Service)。公共汇总粒度事实层(DWS):以分析的主题对象作为建模驱动,基于上层的应用和产品的指标需求,构建公共粒度的汇总指标事实表,以宽表化手段物理化模型。降低数据计算口径和算法不统一风险。公共维度层的表通常也被称为逻辑维度表,维度和维度逻辑表通常一一对应。
2023-11-16 16:42:18
1285
原创 Spark 之 deploy
也就是说,val exitCode = process.waitFor() 这一阻塞过程,完全放在了线程里。fetchAndRunExecutor 作为线程的主体内容。
2023-11-08 20:20:54
680
原创 Java Application Monitor
JAMon的全名是:Java Application Monitor。它是一个小巧的,免费的,高性能的,线程安全的性能监测工具。
2023-09-05 19:42:45
40
Spring Boot in Action
2017-11-23
从PAXOS到ZOOKEEPER 国人写的技术实践书 分布式
2017-09-22
机器学习实战 英文版 Machine Learning in Action 书中所有代码和数据集
2017-09-13
机器学习实战 英文版 Machine Learning in Action
2017-09-13
数据库实现英文第二版 Database System Implementation
2017-09-11
yammer metrics-2.2.0 源码
2017-09-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人