Hadoop数据分析——读书笔记

最新推荐文章于 2024-07-21 19:41:19 发布

rh@x

最新推荐文章于 2024-07-21 19:41:19 发布

阅读量179

点赞数

分类专栏：图灵程序设计丛书读书笔记文章标签： hadoop 数据分析大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xueuihui/article/details/126540143

版权

图灵程序设计丛书读书笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

两种推荐阅读方式。第一为快速通读全书，对Hadoop和分布式数据分析有大致了解。第二为选择感兴趣的章节深入学习。

内容概述

第一部分包括（1-5节），宏观的介绍了分布式计算，讨论如何在集权上运行计算。

第二部分包括（6-10节），侧重于介绍数据科学家应该具体了解的技术。

第一章数据产品时代

大数据和数据科学的结晶是数据产品，讨论数据分析的串行模式以及如何分布式计算。

第二章大数据操作系统

Hadoop背后的核心概念，讲解了为何集群计算既有益又复杂。着眼于YARN和HDFS，详细讨论了Hadoop体系架构，讲解了于分布式存储系统的交互，为分析大型数据做准备。

第三章 Python 框架和 Hadoop Streaming

介绍了分布式计算的基本编程抽象Map Reduce。然而，MapReduce的API是用Java编写的，java并不是数据科学家流行的编程语言。因此，该节专注于通过Hadoop Streaming使用Python编写MapReduce作业。

第四章 Spark 内存计算

MapReduce对理解分布式计算和编写高性能批处理作业（ETL（抽取、转换和加载））十分重要，但hi是Hadoop集群上的日常交互和分析通常都是使用Spark完成的。故该节介绍Spark，以及如何使用python编写Spark程序，通过PySpark以交互方式在YARN上运行。

第五章分布式分析和模式

通过学习设计模式和并行分析算法，从实践的角度研究怎样编写分布式数据分析作业。

第六章数据挖掘和数据仓储

介绍分布式环境下的数据管理、数据挖掘和数据仓库，于传统数据库系统密切相关。重点介绍Hive和HBase，它们是Hadoop最流行的基于SQL的查询引擎和NoSQL数据库。

第七章数据采集

考虑到数据的容量和速度，如何将数据导入分布式系统并用于计算才是最大的挑战。该章节研究从关系数据库获取数据的批量加载工具Sqoop以及更为灵活的Apache Flume，后者用于获取日志和来自网络的其他非结构化数据。

第八章使用高级 API 进行分析

研究高阶工具API，以编写更为复杂的Hadoop和Spark应用程序。例如Apache Pig和Spark的DataFrame。首先讨论了Map Reduce和SPark分布式作业的实现过程，以及从数据流的角度看待算法和数据流水线。Pig可以无需使用MapReduce而轻松的使用数据流。Spark提供的多个集成模块，能够无缝结合过程如理与关系查询，为强大的分析打下基础。

第九章机器学习

更加广泛的特征和输入空间使得模式识别技术更加有效。本章介绍分类、聚类和协同过滤，不考虑建模问题，而是使用Spark的MLlib扩展机器学习技术。

第十章总结：分布式数据科学实战

数据科学不是单一的活动，而是一个生命周期，涉及数据的采集、整理、建模、计算和操作化。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。