O'Reilly精品图书推荐:Python网络数据采集

书名:Python网络数据采集

作者Ryan Mitchell 著

译者:陶俊杰, 陈小莉 译

国内出版社:人民邮电出版社

出版时间:2016年03月

页数:200

书号:978-7-115-41629-2

原版书书名:Web Scraping with Python

原版书出版商:O'Reilly Media



内容介绍


网络上的数据量越来越大,单靠浏览网页获取信息越来越困难,如何有效地提取并利用信息已成为一个巨大的挑战。本书采用简洁强大的Python语言,全面介绍网络数据采集技术,教你从不同形式的网络资源中自由地获取数据。你将学会如何使用Python脚本和网络API一次性采集并处理成千上万个网页上的数据。

本书适合熟悉Python的程序员、安全专业人士、网络管理员阅读。书中不仅介绍了网络数据采集的基本原理,还深入探讨了更高级的主题,比如分析原始数据、用网络爬虫测试网站等。此外,书中还提供了详细的代码示例,以帮助你更好地理解书中的内容。

通过阅读本书,你将能够:

  • 解析复杂的HTML页面

  • 遍历多个网页和网站

  • 了解API的基本概念和工作原理

  • 学习存储数据的方法

  • 下载、读取并抽取网络文档中的数据

  • 使用工具和方法清洗格式异常的数据

  • 读取并处理自然语言

  • 越过表单和登录窗口采集数据

  • 学习采集JavaScript的方法

  • 学习图像处理和文字识别方法


作者介绍


Ryan Mitchell是数据科学家、软件工程师,目前在波士顿LinkeDrive公司负责开发公司的API和数据分析工具。此前,曾在Abine公司构建网络爬虫和网络机器人。她经常做网络数据采集项目的咨询工作,主要面向金融和零售业。另著有Instant Web Scraping with Java。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值