hadoop与数据科学

apache hadoop是一个开源且基于Java的分布式计算平台。其构建初衷就是为了扩展搜索索引。

容错是Hadoop自成立以来一直秉持的核心原则之一。
在这里插入图片描述

hadoop里的核心技术自2005年第一次提交以来已大大扩展,但核心部分只有少数的几个:
分布式文件系统
资源管理器和调度器
分布式数据处理框架

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
调度和资源管理是任何良好的分布式系统的关键。因此,Hadoop有一个组件可以指导计算资源分配并以最有效的方式调度用户应用程序。这个组件叫yarn(Yet Another Resource Negotiator)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
apache nutch是一款开源搜索引擎软件。

数据科学家都会有一套工具来完成他们熟悉的工作,包括数据摄取、数据质量分析和清理、脚本编写、统计计算、分布式计算和可视化。

apache sqoop工具专为hadoop和结构化数据存储(如关系数据库或NoSQL数据库)之间的高效批量数据传输而设计。
使用sqoop版本1可以将数据从外部系统导入到HDFS中,也能导入hive和hbase的表中。
sqoop使用基于连接器的架构,这种架构也是支持插件的。
sqoop配有通用数据库系统(MySQL、postgresql、Oracle、SQL server和db2)的连接器。
sqoop将需要转移到分区的每个数据集切片,并为每个此类分区启动一个map作业,以将此数据传输到其目标位置。

apache flume 是一种分布式、可靠和可用的服务,主要用于从服务器高效收集、聚合并移动大量日志数据到哦hdfs。
flume是稳健的,也能容错,因为flume具有灵活的可靠性机制以及许多故障转移和恢复机制
使用flume时,至少需要两个flume代理(每个代理都有自己的源和汇聚点位置),一个用于源,一个用于收集器。flume也可能有多个来源,多个flume代理可能被流水线化。
hadoop集群上运行的收集器代理将收到源数据并将其写入hdfs。
每个工具涵盖了各种级别的数据移动、数据感到协调、生命周期管理和数据发现。
falcon使终端消费者能够快速地在hadoop集群上嵌入数据,并能做相关的处理、管理任务。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
pig具有用户自定义函数的功能来扩展其功能。
hivemall是hive自定义的函数集合一样,pig也有类似的工具集。
apache Dataful是一组pig用户自定义的函数,其目的是提供一些工具,使hadoop平台上的数据科学任务更加便捷。
dataful支持描述性统计,如计算分位数、中位数和方差。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
R是用于数据操作、计算、统计分析和图形显示的开源语言和环境。
R通常是开发新的交互式数据分析方法的第一个工具。
R语言式建模和可视化最常用的工具之一。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
详细请参考《数据科学与大数据技术导论([美]凯西·斯特拉)》

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

侬本多情。

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值