随着互联网时代的日益发展,数据采集已经成为了目前最为常见的数据获取方式。使用数据抓取软件或自己写代码能够节省大量的时间和精力获取更多有价值的行业信息。如果目标网站发现了用户频繁的访问往往就会直接选择几小时限制访问。接下来就一起来看看linux系统下做数据抓取时经常遇到的问题吧:
1、IP限制
IP限制是指网站所有者主动短暂性的限制用户的地址访问其网站。引起这个原因很多,其目的是为了防止网页抓取。
2、HTTP错误
HTTP错误是用户尝试访问网站时发生的错误。它们可能是由许多原因引起的,包括在抓取脚本中没有考虑到的IP块和网站更改。
3、跳转验证码
验证码是来访用户必须回答以证明人类身份的图像或问题。网站使用它们来保护自己免受自动机器人(如网络爬虫)的侵害。
4、请求超时
超时是指托管用户尝试抓取的网站的服务器在一定时间内没有响应。这可能是由IP块、网站更改或只是连接缓慢引起的。
5、蜜罐陷阱
蜜罐陷阱是网站用来识别和跟踪爬虫的一种机制。他们通过在其页面上包含仅对抓取工具可见的隐藏数据或元素来做到这一点。如果爬虫提取了这些数据,网站所有者就知道它是机器人而不是人类,并可以采取适当的行动。
6、登录限制
一些网站还具有旨在防止网页抓取的登录要求。他们可能会要求用户在继续数据提取过程之前在他们的网站上注册。或者,他们可能会直接发送一封电子邮件,其中包含一个链接,记录用户的IP地址并将其标识为爬虫。
HTTP错误类型
HTTP 400 - 请求无效
HTTP 401.1 - 未授权:登录失败
HTTP 401.2 - 未授权:服务器配置问题导致登录失败
HTTP 401.3 - ACL 禁止访问资源
HTTP 401.4 - 未授权:授权被筛选器拒绝
HTTP 401.5 - 未授权:ISAPI 或 CGI 授权失败
HTTP 403 - 禁止访问
HTTP 403 - 对 Internet 服务管理器 (HTML) 的访问仅限于 Localhost
HTTP 403.1 禁止访问:禁止可执行访问
HTTP 403.2 - 禁止访问:禁止读访问
HTTP 403.3 - 禁止访问:禁止写访问
HTTP 403.4 - 禁止访问:要求 SSL
HTTP 403.5 - 禁止访问:要求 SSL 128
HTTP 403.6 - 禁止访问:IP 地址被拒绝
HTTP 403.7 - 禁止访问:要求客户证书
HTTP 403.8 - 禁止访问:禁止站点访问
HTTP 403.9 - 禁止访问:连接的用户过多
HTTP 403.10 - 禁止访问:配置无效
HTTP 403.11 - 禁止访问:密码更改
HTTP 403.12 - 禁止访问:映射器拒绝访问
HTTP 403.13 - 禁止访问:客户证书已被吊销
HTTP 403.15 - 禁止访问:客户访问许可过多
HTTP 403.16 - 禁止访问:客户证书不可信或者无效
HTTP 403.17 - 禁止访问:客户证书已经到期或者尚未生效
HTTP 404.1 - 无法找到 Web 站点
HTTP 404 - 无法找到文件
HTTP 405 - 资源被禁止
HTTP 406 - 无法接受
HTTP 407 - 要求代理身份验证
HTTP 410 - 永远不可用
HTTP 412 - 先决条件失败
HTTP 414 - 请求 - URI 太长
HTTP 500 - 内部服务器错误
HTTP 500.100 - 内部服务器错误 - ASP 错误
HTTP 500-11 服务器关闭
HTTP 500-12 应用程序重新启动
HTTP 500-13 - 服务器太忙
HTTP 500-14 - 应用程序无效
HTTP 500-15 - 不允许请求 global.asa
Error 501 - 未实现
HTTP 502 - 网关错误