Hadoop数据分析——读书笔记

两种推荐阅读方式。第一为快速通读全书,对Hadoop和分布式数据分析有大致了解。第二为选择感兴趣的章节深入学习。

内容概述

第一部分包括(1-5节),宏观的介绍了分布式计算,讨论如何在集权上运行计算。

第二部分包括(6-10节),侧重于介绍数据科学家应该具体了解的技术。

第一章 数据产品时代

大数据和数据科学的结晶是数据产品,讨论数据分析的串行模式以及如何分布式计算。

第二章 大数据操作系统

Hadoop背后的核心概念,讲解了为何集群计算既有益又复杂。着眼于YARN和HDFS,详细讨论了Hadoop体系架构,讲解了于分布式存储系统的交互,为分析大型数据做准备。

第三章 Python 框架和 Hadoop Streaming

介绍了分布式计算的基本编程抽象Map Reduce。然而,MapReduce的API是用Java编写的,java并不是数据科学家流行的编程语言。因此,该节专注于通过Hadoop Streaming使用Python编写MapReduce作业。

第四章 Spark 内存计算

MapReduce对理解分布式计算和编写高性能批处理作业(ETL(抽取、转换和加载))十分重要,但hi是Hadoop集群上的日常交互和分析通常都是使用Spark完成的。故该节介绍Spark,以及如何使用python编写Spark程序,通过PySpark以交互方式在YARN上运行。

第五章 分布式分析和模式

通过学习设计模式和并行分析算法,从实践的角度研究怎样编写分布式数据分析作业。

第六章 数据挖掘和数据仓储

介绍分布式环境下的数据管理、数据挖掘和数据仓库,于传统数据库系统密切相关。重点介绍Hive和HBase,它们是Hadoop最流行的基于SQL的查询引擎和NoSQL数据库。

第七章 数据采集

考虑到数据的容量和速度,如何将数据导入分布式系统并用于计算才是最大的挑战。该章节研究从关系数据库获取数据的批量加载工具Sqoop以及更为灵活的Apache Flume,后者用于获取日志和来自网络的其他非结构化数据。

第八章 使用高级 API 进行分析

研究高阶工具API,以编写更为复杂的Hadoop和Spark应用程序。例如Apache Pig和Spark的DataFrame。首先讨论了Map Reduce和SPark分布式作业的实现过程,以及从数据流的角度看待算法和数据流水线。Pig可以无需使用MapReduce而轻松的使用数据流。Spark提供的多个集成模块,能够无缝结合过程如理与关系查询,为强大的分析打下基础。

第九章 机器学习

更加广泛的特征和输入空间使得模式识别技术更加有效。本章介绍分类、聚类和协同过滤,不考虑建模问题,而是使用Spark的MLlib扩展机器学习技术。

第十章 总结:分布式数据科学实战

数据科学不是单一的活动,而是一个生命周期,涉及数据的采集、整理、建模、计算和操作化。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值