2021-09-06

最新推荐文章于 2022-10-17 09:43:20 发布

安皮卡

最新推荐文章于 2022-10-17 09:43:20 发布

阅读量209

点赞数 2

文章标签：爬虫 python

本文链接：https://blog.csdn.net/zhxiijj/article/details/120145837

版权

                          写爬虫时遇到的问题及解决方法

最近在开发个用于信息收集的小工具，第一次做爬虫，在爬取网页时遇到了几个问题，查资料了解一下。

一、关于查看网页源代码和F12内容不一致的问题

查看网页源代码：就是别人服务器发送到浏览器的原封不动的代码，也是爬虫获得的代码。

F12：在源码中找不到的代码（元素），是在浏览器执行js时动态生成的，通过F12看到的就是浏览器处理过的最终的html代码。

解决方法：

1.直接从JavaScript中采集加载的数据，用json模块处理；

2.直接采集浏览器中已经加载好的数据，借助工具PhantomJS。

二、关于浏览器访问正常，爬虫爬取出现验证的问题

解决方法：

伪造浏览器访问

复制代码
url = “”
request = urllib.request.Request(url)
request.add_header(‘User-Agent’,‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36’)
response = urllib.request.urlopen(request)
html = response.read()
html = str(html,‘utf-8’)#爬取的网页源代码编码
复制代码
三、python抓取数据时会自动转义

解决方法：

复制代码
headers = {
‘Host’: ‘’,
‘User-Agent’: ‘’,
‘Cookie’: ‘’
}
url = ‘’
domain = ‘’
data = {
‘target’:domain
}
data = urllib.parse.urlencode(data).encode(“utf-8”)
req = urllib.request.Request(url=url, data=data, headers=headers)#post提交
res = urllib.request.urlopen(req)
html = res.read().decode(‘utf-8’)
html = html.replace("\",’’)#\换成
html = eval("’{}’".format(html))#python抓取数据时会自动转义，反转义功能
复制代码
四、requests请求时，为了避免ssl认证，将verify=False，但日志中会有大量的warning信息