O'Reilly精品图书推荐:Spark高级数据分析

书名:Spark高级数据分析

作者Sandy RyzaUri LasersonSean OwenJosh Wills 著

译者:龚少成 译

国内出版社:人民邮电出版社

出版时间:2015年11月

页数:226

书号:978-7-115-40474-9

原版书书名:Advanced Analytics with Spark

原版书出版商:O'Reilly Media



编辑推荐


这是一本实用手册,四位作者均是Cloudera公司的数据科学家,他们联袂展示了利用Spark进行大规模数据分析的若干模式,而且每个模式都自成一体。他们将Spark、统计学方法和真实数据集结合起来,通过实例向读者讲述了怎样解决分析型问题。

本书首先介绍了Spark及其生态系统,接着详细介绍了将分类、协同过滤及异常检查等常用技术应用于基因学、安全和金融领域的若干模式。如果你对机器学习和统计学有基本的了解,并且会用Java、Python或Scala编程,这些模式将有助于你开发自己的数据应用。

本书介绍了以下模式:

  1. 音乐推荐和Audioscrobbler数据集

  2. 用决策树算法预测森林植被

  3. 基于K均值聚类进行网络流量的异常检测

  4. 基于潜在语义分析技术分析维基百科

  5. 用GraphX分析伴生网络

  6. 对纽约出租车轨迹进行空间和时间数据分析

  7. 通过蒙特卡罗模拟来评估金融风险

  8. 基因数据分析和BDG项目

  9. 用PySpark和Thunder分析神经图像数据



自从在加州大学伯克利分校创立Spark 项目起,我就时常心潮澎湃。不仅因为Spark 可以帮助人们快速构建并行系统,更因为Spark 帮助了越来越多的人使用大规模计算。因此看到这本介绍Spark 高级分析的书,我非常欣慰!该书由数据科学领域四位专家Sandy、Uri、Sean 和Josh 携手打造。四位作者研习Spark 已久,他们在本书中跟读者分享了关于Spark 的大量精彩内容,同时本书的案例部分同样出众! 

对于这本书,我最钟爱的是它强调案例,而且这些案例都源于现实数据和实际应用。找到一个像样的、能在笔记本电脑上运行的大数据案例已经很难,更遑论十个了。但本书作者做到了!作者为大家准备好了一切,只等你在Spark 中运行它们。更难能可贵的是,作者不仅讨论了核心算法,更倾心于数据准备和模型调优,没有这些工作,实际项目中就无法得到好的结果。认真研读此书,你应该可以吸收这些案例中的概念并直接将其运用在自己的项目中! 

大数据处理无疑是当今计算领域最激动人心的方向之一,发展非常迅猛,新思想层出不穷。愿本书能帮助你在这个崭新的领域中扬帆启航! 

——Matei Zaharia 

Databricks 公司CTO 兼Apache Spark 项目副总裁


作者简介


Sandy Ryza

是Cloudera公司资深数据科学家,Apache Spark项目的活跃代码贡献者。最近领导了Cloudera公司的Spark开发工作。他还是Hadoop项目管理委员会委员。

Uri Laserson

是Cloudera公司资深数据科学家,专注于Hadoop生态系统中的Python部分。

Sean Owen

是Cloudera公司EMEA地区的数据科学总监,也是Apache Spark项目的代码提交者。他创立了基于Spark、Spark Streaming和Kafka的Hadoop实时大规模学习项目Oryx(之前称为Myrrix)。

Josh Wills

是Cloudera公司的高级数据科学总监,Apache Crunch项目的发起者和副总裁。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Welcome to this first edition of Spark: The Definitive Guide! We are excited to bring you the most complete resource on Apache Spark today, focusing especially on the new generation of Spark APIs introduced in Spark 2.0. Apache Spark is currently one of the most popular systems for large-scale data processing, with APIs in multiple programming languages and a wealth of built-in and third-party libraries. Although the project has existed for multiple years—first as a research project started at UC Berkeley in 2009, then at the Apache Software Foundation since 2013—the open source community is continuing to build more powerful APIs and high-level libraries over Spark, so there is still a lot to write about the project. We decided to write this book for two reasons. First, we wanted to present the most comprehensive book on Apache Spark, covering all of the fundamental use cases with easy-to-run examples. Second, we especially wanted to explore the higher-level “structured” APIs that were finalized in Apache Spark 2.0—namely DataFrames, Datasets, Spark SQL, and Structured Streaming—which older books on Spark don’t always include. We hope this book gives you a solid foundation to write modern Apache Spark applications using all the available tools in the project. In this preface, we’ll tell you a little bit about our background, and explain who this book is for and how we have organized the material. We also want to thank the numerous people who helped edit and review this book, without whom it would not have been possible.

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值