前言
今天为大家带来利用Python爬虫抓取读书排行榜,废话不多说。
Let’s start happily
开发工具
Python版本: 3.6.4
相关模块:
requests模块
lxml模块
csv模块
环境搭建
安装Python并添加到环境变量,pip安装需要的相关模块即可。
思路分析
本文讲解如何爬取读书排行榜
前期准备
1.获取页面内容
for url in urls:
html = requests.get(url, headers=headers)
selector = etree.HTML(html.text)
2.提取整个读书排行榜页面数据
- 浏览器中打开我们要爬取的页面
- 按F12进入开发者工具,查看我们想要的数据在哪里
- 这里我们需要书籍书名,作者/译者, 星级, 评分, 评语,出版社or时间信息等
infos = selector.xpath(