![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
HDFS
阿帆ferrir
暂无
展开
-
Kafka是什么?
Kafka是一种高吞吐量的分布式发布/订阅消息系统,它可以处理网站中的所有数据流(网页浏览、搜索等),通过Hadoop的并行加载机制来统一线上和离线的消息处理,通过集群来提供实时的消费。有如下特性: 通过O(1)的硬盘数据结构转载 2017-09-22 15:52:49 · 1314 阅读 · 0 评论 -
ETL是什么?
ETL是数据抽取(Extract)、清洗(Cleaning)、转换(Transform)、装载(Load)的过程。是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。 数据源:大多数情况下,可以认为是关系数据库,专业一点,就是事务处理系统(OLTP)。当然,广义一点,可能会是其它数据库或者是文件系统。 目的地:数据仓库,堆转载 2017-09-17 23:40:45 · 801 阅读 · 1 评论