大数据平台各种工具和名词解惑

什么是ETL?

什么是ETL?为什么需要ETL?

通俗易懂型:互联网业务实战(三)--ETL和推荐_firsthealth的博客-CSDN博客

全面详细型:ETL的基础知识,看完你就全明白了!_飘渺Jam的博客-CSDN博客_etl

ETL工具的比较!

四种数据处理方式比较:传统 ETL 工具、Mapreduce、Hive、Spark

常见ETL平台:

Kettle:

互联网巨头(比如BAT)的数据平台几乎都是hadoop,spark的框架,因为数据是海量的。即便kettle有可取之处,也会被改得面目全非,因为这些公司大都是研发狂魔啊。。。

小公司使用kettle居多,开源成本低,部署极其方便,一台普通的服务器,甚至本地PC就可以随意折腾。作用还是ETL工具,做数据处理用。再搭一些开源的报表平台出BI报表。据我所知,顺网科技旗下公司有在用~这个算有名么。。。

另外传统的金融IT(主要是各大银行)妥妥地会购买整套的商用BI,财大气粗,关键是懒

总之,kettle本质上就是java编写的数据处理程序,但数据量是其瓶颈。
【作者:一介布衣;链接:https://www.zhihu.com/question/46990569/answer/107046866】

Apache - Airbnb airflow:airflow 介绍 - 简书

Apache Nifi 概述:Apache NiFi 概述_张伯毅的专栏-CSDN博客_apache nifi

数据处理大厂:Oracle,Apache

Oracle是啥?甲骨文(中国)软件系统有限公司_百度百科

大名鼎鼎的Apache是啥?apache(Apache软件基金会)_百度百科

Hadoop

官方文件:Hadoop分布式文件系统:架构和设计

引言:Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。

前提和设计目标:硬件错误,流式数据访问,大规模数据集,简单的一致性模型,“移动计算比移动数据更划算”,异构软硬件平台间的可移植性,Namenod和Datanod。


大数据架构hadoop - zhanghaiyang的个人空间 - OSCHINA - 中文开源技术交流社区

abstract: "

随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB,对这些海量数据的分析已经成为一个非常重要且紧迫的需求。

Hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势,事实上已成为当前互联网企业主流的大数据分析平台。本文主要介绍一种基于Hadoop平台的多维分析和数据挖掘平台架构。作为一家互联网数据分析公司,我们在海量数据的分析领域那真是被“逼上梁山”。多年来在严苛的业务需求和数据压力下,我们几乎尝试了所有可能的大数据分析方法,最终落地于Hadoop平台之上。"


Hadoop分布式系统架构详解_zl的博客-CSDN博客_hadoop架构


调度和资源配置:Yarn资源队列配置和使用_李京京的博客-CSDN博客_yarn队列配置

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值