爬虫Spider遇到的问题汇总篇

最新推荐文章于 2024-06-01 21:09:05 发布

ykxnj

最新推荐文章于 2024-06-01 21:09:05 发布

阅读量600

点赞数

本文链接：https://blog.csdn.net/ykxnj/article/details/106458554

版权

找不到元素

先打印html或soup看一下是不是和f12展示的一样的结构
有明显id的可能有record /record 标签
eg.天/津/市/卫/健/委健/康知识

看看是不是post请求
eg.天/津/市/卫/健/委健/康知识

可能返回的是json文件（如下图）直接解析json
res = requests.get(self.url)
html = res.json()
在这里插入图片描述

url没有显示换页

会有iframe 找到它的src属性用这个url值

中文乱码

.encode(“ISO_8859_1”).decode(“utf-8”)

请求页面的时候加上一句编码的话
res = requests.get(self.url,headers = self.header,verify=False)
res.encoding = res.apparent_encoding

要下载文档的话

from urllib.request import urlretrieve
file=os.path.splitext(a[‘href’])
filename,type=file
file_name = a.text + type
urlretrieve(new_url, file_name)

a.text里面不能有特殊字符
不然报错：
tfp = open(filename, ‘wb’)
FileNotFoundError: [Errno 2] No such file or directory: ‘饮用水水源保护区标志技术要求（HJ/T 433-2008）.pdf’

driver语句

self.driver = webdriver.Chrome()
self.driver.get(self.url)
time.sleep(random.uniform(3, 5))
self.list_parase()

点击下一页
self.driver.find_element_by_xpath(“XXX”).click()
time.sleep(random.uniform(2, 3))
self.list_parase()

时间戳转日期格式

timeStamp = li[“date”]
timeArray = time.localtime(timeStamp)
date = time.strftime("%Y-%m-%d", timeArray)
print(date)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ykxnj

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬虫Spider遇到的问题汇总篇

找不到元素先打印html或soup看一下是不是和f12展示的一样的结构
复制链接

扫一扫

安装爬虫框架PySpider遇到的一个问题

PatrickZheng的博客

06-19

4724

命令 pyspider all 报错：pkg_resources.DistributionNotFound: wsgidav 可能的解决方案：pip install -U setuptools

WOS 爬虫总结1

08-03

9. **爬虫伦理与法律问题**： - 确保你的爬虫活动符合WOS的服务条款，尊重版权，避免频繁请求导致IP被封禁。如果需要在校外访问，可能需要使用学校的账号和权限。 10. **爬虫逻辑**： - 根据WOS网页的结构和数据...

参与评论您还未登录，请先登录后发表或查看评论

spyder 使用python遇到的几个问题

guoxw1990的博客

05-06

4066

几个点：文章目录1. 修改界面为简体中文2. spyder默认使用的自带的python版本，可以切换到自定义的python版本：3. spyder默认的python路径：4. 在spyder默认的python下安装pip 1. 修改界面为简体中文 2. spyder默认使用的自带的python版本，可以切换到自定义的python版本：但切换后会报错（没来得及截图）这里选择使用默认的python版本。 3. spyder默认的python路径： C:\Users\用户名\AppData\Local\

Access to XMLHttpRequest at ‘file:///C:/Users/86152/Desktop/asset/zg.json‘ from origin ‘null‘ has be

weixin_54249422的博客

11-19

2773

火狐直接给了结果，jq只能请求http，不能请求本地资源，我也是了这种方法，但是不太奏效，由于我是上线时出现错误导致效果实现不了，我是直接选择先将资源放到线上，本地再去请求线上的资源这样问题就解决了。 ...

爬虫-uiautomator2获取拼多多APP端商品数据

热门推荐

懂得一千零一种,赋予你失败的方法！

12-01

8万+

Python报错：‘unicodeescape’ codec can’t decode bytes in position 2-3: truncated \UXXXXXXXX escape 问题原因在文件夹中复制地址时，文件夹中的地址是用 \ 来分隔不同文件夹的，而Python识别地址时只能识别用 / 分隔的地址。解决方法 1.在字符串前加上r或R，即：imread(r‘C:\Users\li735\PycharmProjects\untitled\abc.txt’) ，其中r或R在py

Python requests乱码的五种解决办法

bigcarp的专栏

07-16

2112

cchardet需要提前安装一下：pip install cchardet。一种临时性的解决办法，不建议用这种方法，相当于写死代码了。第一种：apparent_encoding。第二种：content utf-8解码。第五种：encode + decode。第四种：cchardet。第三种：chardet。

获取网页编码方式apparent_encoding（自动识别网页编码）

m0_48600544的博客

08-16

1476

假如说，我爬取电影天堂网页的时候，没去关心它是什么编码的，就习惯写成编码'utf-8'但还有一个方法，就是可以通过res.apparent_encoding查看是用什么标准编码的。这时候，第一时间就是想到去网页，看看这个网页是用什么标准编码的。使用爬虫的时候，时常被编码问题困扰，可以通过打开检查，查看网页的源代码。但因为这个网页不是用utf-8编码的，所以爬取时就会出现乱码。我可以把请求的编码设置为原网页的编码(留意下方代码第四行)可以看到电影天堂网页，是GB2312编码的。电影天堂的编码是gb2312。.

爬虫面试题（总结篇）.docxpython面试

08-13

本文总结了爬虫面试常见的问题，涵盖了项目、框架、代理、验证码、模拟登陆、分布式、数据存储、python 基础、协议、数据提取、算法等多个方面的知识点。一、项目问题 * 项目经验的重要性：在爬虫面试中，项目...

Webmagic Spider简单框架流程图

12-06

总结来说，Webmagic Spider是一个强大而易用的Java爬虫框架，它简化了网络爬虫的开发流程，让开发者能专注于页面解析和数据处理，而不用过多关心底层的网络通信和任务调度。通过理解上述流程，开发者可以更高效地...

总结Python爬虫面试题.pdf

09-13

Python爬虫面试题总结在Python爬虫领域，面试官通常会关注候选人的项目经验、技术选型、问题解决能力以及基础知识。以下是一些常见的面试问题及其详细解答：一、项目问题 1. 反爬策略及解决方案：面试时可能会被...

爬虫-webmagic学习总结

11-13

爬虫-webmagic学习总结文档，主要介绍本人学习爬虫的小总结

webmagic 中文开发文档

12-10

webmagic的中文文档，里面详细的介绍了webmagic的各个模块的知识点和简单的例子

网络爬虫之Requests库详解（含多个案例）

手把手教你学编程

04-13

1万+

网络爬虫是一种程序，它的主要目的是将互联网上的网页下载到本地并提取出相关数据。网络爬虫可以自动化的浏览网络中的信息，然后根据我们制定的规则下载和提取信息。

webmagic乱码问题的解决

冬日暖阳的博客

05-03

649

webmagic爬取到的信息中文乱码乱码前改变编码为GBK，结果正常现行在爬取标准状态的过程中出现乱码的情况乱码前改变编码为GBK，结果正常现行解决

python爬虫，在response乱码时进行转码的通用格式

西门大盗捉虫专家

07-05

3728

如果print(response.text)出现非utf-8格式时，通过以下方式进行统一的格式转换。def get_html(url): response = requests.get(url) return response.text.encode(response.encoding).decode('utf-8') #response.encoding为原来的编码格式，enc...

爬虫requests爬去网页乱码问题

weixin_33869377的博客

05-24

137

爬虫requests爬去网页乱码问题 1:res.apparent_encoding 2:res.encoding='utf-8' r.encoding 从HTTP header中猜测的响应内容编码方式 r.apparent_encoding 从内容中分析出的响应内容编码方式（备选编码方式）　　...

java爬取百度等搜索引擎时加载慢及中文乱码等问题

qq_48329942的博客

08-04

657

项目场景：最近项目种需要我去搜索引擎上按需求搜索网页并将其内容爬取出来，在爬取过程生成html文件时遇到一些问题，现在记录下来问题描述： 1.爬取到部分页面加载速度满，或者不能加载出来； 2. 一些页面出现中文乱码注：此次用到的技术包括webmagic,jsoup等页面抓取技术，webmagic通过Spider将目标url添加，并且复写process方法，参数为目标url的page，在这个方法里，可以通过xpath来获取各个节点的信息，我是通过这个方法将百度搜索的列表种的herf链接获取到，并将这

py爬虫返回Forbid spider access

05-05

"Forbid spider access" 的错误通常是因为网站服务器检测到了爬虫程序并且拒绝了爬虫程序的访问。这种情况下，可以尝试以下几种方法解决： 1. 修改请求头部信息：将 User-Agent 字段修改为浏览器的 User-Agent，或者将其设置为随机的字符串，避免被服务器识别为爬虫程序。 2. 添加延时：在爬取网页时添加一个随机的延时，避免在短时间内发送大量的请求，被服务器识别为爬虫程序。 3. 使用代理 IP：使用代理 IP 来发送请求，避免被服务器识别出爬虫程序的 IP 地址。 4. 了解网站的反爬策略：有些网站会采用更加复杂的反爬虫策略，比如验证码、动态加载等，需要根据具体情况来进行相应的解决方案。需要注意的是，网站拒绝爬虫访问可能是为了保护自身的数据安全和稳定性，如果继续进行爬取可能会对网站造成损害，因此需要遵守网站的规则和政策。

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交