爬虫,是人工智能行业获取数据时最方便、最常用的一种手段。爬虫,也是很多人文社科领域内,获取数据的有效方法,比如用户行为研究、传播学研究、文本分析等等。学好爬虫,找数据不求人。
厚厚的一本书,一共包括了17章,内容丰富:
第1章介绍学习爬虫前需要了解的基础知识,如HTTP、网页结构、多线程等等,适合初学者。
第2章介绍了最基本的请求库和正则表达式的基本用法。
第3章介绍了网页解析库,比如BeautifulSoup、XPath、pyquery、parsel,可以使提取信息更加方便快捷。
第4章介绍了数据存储的常见形式及数据库存储操作,包括txt文件、jason文件、csv文件的存储,MySQL,MongoDB、Redis的基本存储操作等等。
第5章介绍了Ajax数据爬取,适用于有些网页是用Ajax请求API接口的方式加载的,所以常规方法无法获取。
第6章讲异步爬虫,爬取效率大大提高。