图书说明:
本书提供了一个完整的现代Web抓取指南,使用Python作为编程语言,而不会掩盖重要的细节或最佳实践。本书以数据科学受众为中心,探讨了其操作的Web技术的刮擦和更大的背景,以确保充分理解。作者建议网络抓取作为任何数据科学家库的强大工具,因为许多数据科学项目都是从获得适当的数据集开始的。
首先简要介绍了抓取和现实用例,作者探讨了HTTP,HTML和CSS的核心概念,以提供坚实的基础。除了快速的Python入门,它们还包括Selenium用于JavaScript重型站点和网络爬行的详细信息。本书最后概述了最佳实践和一系列示例,这些示例汇集了您学到的所有内容,并说明了各种数据科学用例。
你将学到什么
- 利用成熟的最佳实践和常用的Python包
- 处理今天的网络,包括JavaScript,cookie和常见的网络抓取缓解技术
- 了解有关网络抓取的管理和法律问题
本书适用于谁
面向数据科学的受众可能已经熟悉Python或其他编程语言或分析工具包(R,SAS,SPSS等)。大学课程的学生或教师也可能受益。不熟悉Python的读者将会欣赏第1章中的快速Python入门,以了解基础知识并提供指向其他指南的指南。