hadoop与数据科学

最新推荐文章于 2024-08-14 23:30:40 发布

侬本多情。

最新推荐文章于 2024-08-14 23:30:40 发布

阅读量218

点赞数

分类专栏：数据科学与大数据技术导论文章标签： hadoop big data python

本文链接：https://blog.csdn.net/weixin_44692890/article/details/120171474

版权

数据科学与大数据技术导论专栏收录该内容

2 篇文章 1 订阅

订阅专栏

apache hadoop是一个开源且基于Java的分布式计算平台。其构建初衷就是为了扩展搜索索引。

容错是Hadoop自成立以来一直秉持的核心原则之一。
在这里插入图片描述

hadoop里的核心技术自2005年第一次提交以来已大大扩展，但核心部分只有少数的几个：
分布式文件系统
资源管理器和调度器
分布式数据处理框架

在这里插入图片描述

调度和资源管理是任何良好的分布式系统的关键。因此，Hadoop有一个组件可以指导计算资源分配并以最有效的方式调度用户应用程序。这个组件叫yarn（Yet Another Resource Negotiator）

在这里插入图片描述

在这里插入图片描述

apache nutch是一款开源搜索引擎软件。

数据科学家都会有一套工具来完成他们熟悉的工作，包括数据摄取、数据质量分析和清理、脚本编写、统计计算、分布式计算和可视化。

apache sqoop工具专为hadoop和结构化数据存储（如关系数据库或NoSQL数据库）之间的高效批量数据传输而设计。
使用sqoop版本1可以将数据从外部系统导入到HDFS中，也能导入hive和hbase的表中。
sqoop使用基于连接器的架构，这种架构也是支持插件的。
sqoop配有通用数据库系统（MySQL、postgresql、Oracle、SQL server和db2）的连接器。
sqoop将需要转移到分区的每个数据集切片，并为每个此类分区启动一个map作业，以将此数据传输到其目标位置。

apache flume 是一种分布式、可靠和可用的服务，主要用于从服务器高效收集、聚合并移动大量日志数据到哦hdfs。
flume是稳健的，也能容错，因为flume具有灵活的可靠性机制以及许多故障转移和恢复机制
使用flume时，至少需要两个flume代理（每个代理都有自己的源和汇聚点位置），一个用于源，一个用于收集器。flume也可能有多个来源，多个flume代理可能被流水线化。
hadoop集群上运行的收集器代理将收到源数据并将其写入hdfs。
每个工具涵盖了各种级别的数据移动、数据感到协调、生命周期管理和数据发现。
falcon使终端消费者能够快速地在hadoop集群上嵌入数据，并能做相关的处理、管理任务。

在这里插入图片描述

pig具有用户自定义函数的功能来扩展其功能。
hivemall是hive自定义的函数集合一样，pig也有类似的工具集。
apache Dataful是一组pig用户自定义的函数，其目的是提供一些工具，使hadoop平台上的数据科学任务更加便捷。
dataful支持描述性统计，如计算分位数、中位数和方差。

在这里插入图片描述

R是用于数据操作、计算、统计分析和图形显示的开源语言和环境。
R通常是开发新的交互式数据分析方法的第一个工具。
R语言式建模和可视化最常用的工具之一。

在这里插入图片描述

在这里插入图片描述

详细请参考《数据科学与大数据技术导论（[美]凯西·斯特拉）》

侬本多情。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
2
评论
hadoop与数据科学

apache hadoop是一个开源且基于Java的分布式计算平台。其构建初衷就是为了扩展搜索索引。容错是Hadoop自成立以来一直秉持的核心原则之一。hadoop里的核心技术自2005年第一次提交以来已大大扩展，但核心部分只有少数的几个：分布式文件系统资源管理器和调度器分布式数据处理框架调度和资源管理是任何良好的分布式系统的关键。因此，Hadoop有一个组件可以指导计算资源分配并以最有效的方式调度用户应用程序。这个组件叫yarn（Yet Another Resource Negotia
复制链接

扫一扫