Linux服务器出现爬虫的报错

问题

发现运行中的服务器总是出现类似错误
在这里插入图片描述

因为端口开放所以导致一直被各大搜索引擎的爬虫检索,网上没人说,唯一的办法还是关闭开放端口那肯定不行

spring - jHipster Undertow request failed HttpServerExchange - Stack Overflow找到

It's the search crawler to get url not found,throw the error,you can write robots.txt to prohibit it on the root directory.

解决方案

在网站的根目录下添加 robots.txt

robots.txt是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络爬虫/蜘蛛),此网站中的哪些内容是不能被搜索引擎的漫游器获取的,哪些是可以被获取的。
当robots访问一个网站时,首先会检查该网站中是否存在这个文件,如果机器人找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围
因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。

写法注意

  1. 所有字母需要用英文输入法
  2. 与 * 之间需有一个英文输入法的空格
  3. 与 / 之间需有一个英文输入法的空格

例子:禁止任何搜索引擎索引网站的所有部分

User-Agent: *
Disallow: /
  • 10
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值