Training: WWW-Robots (HTTP, Training)
题目描述
In this little training challenge, you are going to learn about the Robots_exclusion_standard.
The robots.txt file is used by web crawlers to check if they are allowed to crawl and index your website or only parts of it.
Sometimes these files reveal the directory structure instead protecting the content from being crawled.
Enjoy!
在这个小小的培训挑战中,您将了解Robots_Exclusion_Standard。
网络爬虫使用robots.txt文件检查是否允许他们抓取和索引您的网站或只允许部分内容。
有时,这些文件会暴露目录结构,而不是保护内容不被抓取。
好好享受吧!
解:
首先要了解 Robots_exclusion_standard 是什么(自己去维基百科了解,需要科学上网),直接点击字符段Robots_exclusion_standard即可来到维基百科。
可以得到:
和
翻译:
有些人甚至可以使用robots.txt作为指导来查找不允许访问的链接并直接找到它们。
此示例告诉所有机器人不要访问网站:
用户代理:*
不允许:/
我要偏要成为有些人看看有什么链接不允许访问。。。访问WeChall的robot.txt看看(这个要一级一级的尝试访问robots.txt)最后得到:
好了找到不允许访问的链接了,那就访问吧。(注意!!!你是在http://www.wechall.net/robots.txt中得到的url)
wechall相关链接:我的wechall之旅??!