实战：用正则爬取豆瓣新书速递

最新推荐文章于 2021-04-05 11:05:47 发布

leedeancsdn

最新推荐文章于 2021-04-05 11:05:47 发布

阅读量341

点赞数 1

分类专栏：学习-21天搞定分布式Python网络爬虫文章标签： python

本文链接：https://blog.csdn.net/weixin_44582214/article/details/104719243

版权

用到的库有：requests库，re库，csv库。

使用正则爬取网页的心得体会：

正则表达式越简短越好，尽可能降低解析查询时间；
简短的正则表达式所抓取到结果除了你想得到的数据以外，可能还有其他匹配到的数据，如若有，再修改正则表达式使其更复杂（精确）一些。
源代码中的有些（没有规律）双引号，在正则中可能要用单引号表示，如果正则无误，但又匹配不到数据，可以尝试修改引号部分。

以下直接上代码：

import requests
import re
import csv

headers = {
   
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

leedeancsdn

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
实战：用正则爬取豆瓣新书速递

直接上代码：ps：保存为csv的部分并不完美，待学习后续章节后更正。import requestsimport reimport csvheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Sa...
复制链接

扫一扫