Linux系统做网页爬虫常见的错误

最新推荐文章于 2023-05-18 15:10:24 发布

q56731523

最新推荐文章于 2023-05-18 15:10:24 发布

阅读量367

点赞数

文章标签： linux 爬虫服务器网络爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44617651/article/details/127046723

版权

随着互联网时代的日益发展，数据采集已经成为了目前最为常见的数据获取方式。使用数据抓取软件或自己写代码能够节省大量的时间和精力获取更多有价值的行业信息。如果目标网站发现了用户频繁的访问往往就会直接选择几小时限制访问。接下来就一起来看看linux系统下做数据抓取时经常遇到的问题吧：
在这里插入图片描述

1、IP限制

IP限制是指网站所有者主动短暂性的限制用户的地址访问其网站。引起这个原因很多，其目的是为了防止网页抓取。

2、HTTP错误

HTTP错误是用户尝试访问网站时发生的错误。它们可能是由许多原因引起的，包括在抓取脚本中没有考虑到的IP块和网站更改。

3、跳转验证码

验证码是来访用户必须回答以证明人类身份的图像或问题。网站使用它们来保护自己免受自动机器人（如网络爬虫）的侵害。

4、请求超时

超时是指托管用户尝试抓取的网站的服务器在一定时间内没有响应。这可能是由IP块、网站更改或只是连接缓慢引起的。

5、蜜罐陷阱

蜜罐陷阱是网站用来识别和跟踪爬虫的一种机制。他们通过在其页面上包含仅对抓取工具可见的隐藏数据或元素来做到这一点。如果爬虫提取了这些数据，网站所有者就知道它是机器人而不是人类，并可以采取适当的行动。

6、登录限制

一些网站还具有旨在防止网页抓取的登录要求。他们可能会要求用户在继续数据提取过程之前在他们的网站上注册。或者，他们可能会直接发送一封电子邮件，其中包含一个链接，记录用户的IP地址并将其标识为爬虫。

HTTP错误类型

HTTP 400 - 请求无效

HTTP 401.1 - 未授权：登录失败

HTTP 401.2 - 未授权：服务器配置问题导致登录失败

HTTP 401.3 - ACL 禁止访问资源

HTTP 401.4 - 未授权：授权被筛选器拒绝

HTTP 401.5 - 未授权：ISAPI 或 CGI 授权失败

HTTP 403 - 禁止访问

HTTP 403 - 对 Internet 服务管理器 (HTML) 的访问仅限于 Localhost

HTTP 403.1 禁止访问：禁止可执行访问

HTTP 403.2 - 禁止访问：禁止读访问

HTTP 403.3 - 禁止访问：禁止写访问

HTTP 403.4 - 禁止访问：要求 SSL

HTTP 403.5 - 禁止访问：要求 SSL 128

HTTP 403.6 - 禁止访问：IP 地址被拒绝

HTTP 403.7 - 禁止访问：要求客户证书

HTTP 403.8 - 禁止访问：禁止站点访问

HTTP 403.9 - 禁止访问：连接的用户过多

HTTP 403.10 - 禁止访问：配置无效

HTTP 403.11 - 禁止访问：密码更改

HTTP 403.12 - 禁止访问：映射器拒绝访问

HTTP 403.13 - 禁止访问：客户证书已被吊销

HTTP 403.15 - 禁止访问：客户访问许可过多

HTTP 403.16 - 禁止访问：客户证书不可信或者无效

HTTP 403.17 - 禁止访问：客户证书已经到期或者尚未生效

HTTP 404.1 - 无法找到 Web 站点

HTTP 404 - 无法找到文件

HTTP 405 - 资源被禁止

HTTP 406 - 无法接受

HTTP 407 - 要求代理身份验证

HTTP 410 - 永远不可用

HTTP 412 - 先决条件失败

HTTP 414 - 请求 - URI 太长

HTTP 500 - 内部服务器错误

HTTP 500.100 - 内部服务器错误 - ASP 错误

HTTP 500-11 服务器关闭

HTTP 500-12 应用程序重新启动

HTTP 500-13 - 服务器太忙

HTTP 500-14 - 应用程序无效

HTTP 500-15 - 不允许请求 global.asa

Error 501 - 未实现

HTTP 502 - 网关错误

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Linux系统做网页爬虫常见的错误

如果目标网站发现了用户频繁的访问往往就会直接选择几小时限制访问。如果爬虫提取了这些数据，网站所有者就知道它是机器人而不是人类，并可以采取适当的行动。HTTP错误是用户尝试访问网站时发生的错误。它们可能是由许多原因引起的，包括在抓取脚本中没有考虑到的IP块和网站更改。超时是指托管用户尝试抓取的网站的服务器在一定时间内没有响应。IP限制是指网站所有者主动短暂性的限制用户的地址访问其网站。HTTP 403.15 - 禁止访问：客户访问许可过多。HTTP 403.12 - 禁止访问：映射器拒绝访问。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。