数据仓库
文章平均质量分 81
张包峰
Distributed Computing
展开
-
阿里云数据库团队招聘
我们是全球领先的云数据库技术团队,这里有极具挑战性的岗位期待你的加盟: 阿里云-数据库技术组-分布式数据库研发工程师 岗位描述: 1.负责云数据库分布式计算引擎或者列存索引等核心模块的研发工作 2.负责提升系统的易用性、稳定性,提升资源利用率和性能。 岗位要求: 1.在分布式计算/存储/数据库/OLAP等领域有3-5年的开发和优化经验者优先 2.对开源的Hadoop/Spark/原创 2016-10-18 11:23:57 · 3998 阅读 · 0 评论 -
淘宝实时数据传输平台: TimeTunnel介绍
作者在工作中遇到了类似流式数据实时接入的业务场景,所以对淘宝的实时数据仓库这一块做了一些调研和了解。本文从业务场景和设计上介绍了淘宝的TimeTunnel工具,文中的图片来自淘宝数据仓库团队交流过程中的sildes,也参考了一些相关文档。业务背景TimeTunnel(简称TT)是一个基于thrift通讯框架搭建的实时数据传输平台,具有高性能、实时性、顺序性、高可靠性、高可用性、可扩展性等特点(基于Hbase)。目前TimeTunnel在阿里巴巴广泛的应用于日志收集、数据监控、广告反馈、量子统计、数据原创 2014-05-19 17:23:04 · 19293 阅读 · 2 评论 -
Vertica: 基于DBMS架构的列存储数据仓库
Vertica与传统数据库系统和其他列式数据仓库系统相比的话,在性能上有比较明显的优势,在设计上有一些异同,比较适合ad-hoc查询,OLAP类型的作业。总的来说,Vertica通过列存储减少了io开销,再加上高效的压缩手段,极大节省了磁盘空间,基于此Vertica采用多备份来保证高可用性,并且多备份又能够增强查询性能。在使用和运维角度了,Vertica自带工具帮助用户做物理表的存储,能提供标准SQL接口,也兼容现有的BI、ETL工具方便作业往Vertica上迁移,而且Vertica部署对硬件没有特殊要求,原创 2014-08-11 00:52:48 · 10043 阅读 · 3 评论 -
论文摘抄 - Infobright
Infobright作为开源的MySQL数据仓库解决方案,引入了列存储方案,高强度的数据压缩,优化的统计计算等内容,本文是摘抄了infobright论文里最重要的设计点,KnowledgeGird是infobright设计上的核心。brighthouse是一个面向列的数据仓库,在列存储和压缩数据方面,数据压缩比达到10:1。其核心Knowledge Grid(知识网格)层,即一个能自动调节、所存出具特别小的元数据层,替代了索引的功能,提供了数据过滤、统计信息表达、实际数据位置信息等内容,让brightho原创 2014-08-14 23:43:23 · 2392 阅读 · 0 评论