Training: WWW-Robots (HTTP, Training)

Training: WWW-Robots (HTTP, Training)

题目描述
In this little training challenge, you are going to learn about the Robots_exclusion_standard.
The robots.txt file is used by web crawlers to check if they are allowed to crawl and index your website or only parts of it.
Sometimes these files reveal the directory structure instead protecting the content from being crawled.
Enjoy!

在这个小小的培训挑战中,您将了解Robots_Exclusion_Standard。
网络爬虫使用robots.txt文件检查是否允许他们抓取和索引您的网站或只允许部分内容。
有时,这些文件会暴露目录结构,而不是保护内容不被抓取。
好好享受吧!

解:

首先要了解 Robots_exclusion_standard 是什么(自己去维基百科了解,需要科学上网),直接点击字符段Robots_exclusion_standard即可来到维基百科。
可以得到:
在这里插入图片描述

在这里插入图片描述
翻译:
有些人甚至可以使用robots.txt作为指导来查找不允许访问的链接并直接找到它们。

此示例告诉所有机器人不要访问网站:

用户代理:*
不允许:/

我要偏要成为有些人看看有什么链接不允许访问。。。访问WeChall的robot.txt看看(这个要一级一级的尝试访问robots.txt)最后得到:

在这里插入图片描述
好了找到不允许访问的链接了,那就访问吧。(注意!!!你是在http://www.wechall.net/robots.txt中得到的url)

wechall相关链接:我的wechall之旅??!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值