Python3网络爬虫开发实战(第二版)

爬虫,是人工智能行业获取数据时最方便、最常用的一种手段。爬虫,也是很多人文社科领域内,获取数据的有效方法,比如用户行为研究、传播学研究、文本分析等等。学好爬虫,找数据不求人。

 

 

 

厚厚的一本书,一共包括了17章,内容丰富:

第1章介绍学习爬虫前需要了解的基础知识,如HTTP、网页结构、多线程等等,适合初学者。

第2章介绍了最基本的请求库和正则表达式的基本用法。

第3章介绍了网页解析库,比如BeautifulSoup、XPath、pyquery、parsel,可以使提取信息更加方便快捷。

第4章介绍了数据存储的常见形式及数据库存储操作,包括txt文件、jason文件、csv文件的存储,MySQL,MongoDB、Redis的基本存储操作等等。

第5章介绍了Ajax数据爬取,适用于有些网页是用Ajax请求API接口的方式加载的,所以常规方法无法获取。

第6章讲异步爬虫,爬取效率大大提高。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值