爬取某网站上面的超链接、SSLError报错

汪宝儿

已于 2022-12-05 15:31:59 修改

阅读量241

点赞数 1

分类专栏：网络爬虫文章标签： python

于 2022-11-19 19:44:07 首次发布

本文链接：https://blog.csdn.net/weixin_48353691/article/details/127930612

版权

网络爬虫专栏收录该内容

11 篇文章 1 订阅

订阅专栏

对某网站超链接的爬取

import requests
from lxml import etree

url = 'https://www.baidu.com/'
headers = {
        "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36"
        }
response = requests.get(url,headers=headers,verify=False)
content = response.content.decode('utf8')
html = etree.HTML(content)
contents = html.xpath('//div[@id="s-top-left"]/a/text()')
urls = html.xpath('//div[@id="s-top-left"]/a/@href')
egs = []
for content,url in zip(contents,urls):
    eg = {}
    eg = {
            "content":content,
            "url":url
            }
    egs.append(eg)

1.SSLError报错及解决：

在这里插入图片描述

这个代码是没有问题的，运行完可以得到理想的结果，但是会报错。

1.我看了很多博客的解决方案，就是SSL证书的问题。
所以我也在requests请求里面加入   verify=False   但是没用呀，还是报错。

2.于是我直接把https请求改为http请求，但也无济于事。

这真是一个令人头疼的问题：我快疯了！！！！！！！！！！！！！！！！！！！！！！！！！！
怎么解决呢？
上知乎，稀土掘金，百度……找呗

3.（对症下药）又翻了很多文章，解决方法差不多，所以我又来到了CSDN，最终在博主伊甸园的一篇文章里找到了答案：

*requests库版本与电脑系统的问题，我一直用的是2.12.4版本，只要升级到2.7.0或以上版本就可以完美解决。*

2.xpath语法：

在这里插入图片描述

每个内容都对应一个链接，我们要使之对应起来。

contents = html.xpath('//div[@id="s-top-left"]/a/text()')

urls = html.xpath('//div[@id="s-top-left"]/a/@href')

3.得到我们预期的数据

在这里插入图片描述

汪宝儿

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录