robots协议

最新推荐文章于 2024-05-03 20:08:15 发布

zhangyingchengqi

最新推荐文章于 2024-05-03 20:08:15 发布

阅读量2.3k

点赞数 1

分类专栏：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhangyingchengqi/article/details/83348900

版权

爬虫专栏收录该内容

13 篇文章 1 订阅

订阅专栏

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

robots.txt文件是一个文本文件, 是一个协议而不是一个命令. 当爬虫访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，爬虫就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的爬虫将能够访问网站上所有没有被口令保护的页面。

样例:

User-agent: *

Disallow: /

Allow: /public/

以上表明爬虫只充许爬取public目录，将上面的内容保存为robots.txt文件，放在网站的根目录下，和网站的入口文件( index.html,index.htm等)在一起即可.

配置项详解:

User-agent 指定爬虫名, *代表任何爬虫。如有多条User-agent记录，则可以限制多个爬虫，但至少需要指定一条.

Disallow:不允许爬取的目录。

Allow:一般配合Disallow使用，用于排除限制。

常见的爬虫名:

BaiduSpider Googlebot 360Spider YodaoBot ia_archiver

试试查看一下baidu的robots.txt文件:

https://www.baidu.com/robots.txt

zhangyingchengqi

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
robots协议

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。 robots.txt文件是一个文本文件, 是一个协议而不是一个命令. 当爬虫访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如...
复制链接

扫一扫

专栏目录

zhangyingchengqi CSDN认证博客专家 CSDN认证企业博客

码龄17年

249: 原创

1万+: 周排名

228万+: 总排名

55万+: 访问

: 等级

6631: 积分

7851: 粉丝

359: 获赞

96: 评论

767: 收藏

私信

关注

热门文章

分类专栏

最新评论

在junit 测试时，加入@Transactional注解
我真的是个菜鸟，求大佬带！: 为什么我的日志中没有提示rollback呢，第一次在junit中使用Transactional，理解错了Transactional的意思，以为和开发环境中的一致。而且因为日志中没有回滚提示，我百思不得其解。原来如此！
xmind文件大，导致运行缓慢且无法保存
捧花出席只为献礼: 假如 -Xms 和 -Xmx都调到最大了，还是卡顿咋办呀，是不是就只有拆分文件了。我现在文件大小是190M，设置的-Xmx是2000m
xmind文件大，导致运行缓慢且无法保存
牛坦: 我也是用的2021版本，问gpt说可以用命令行带参数启动：xmind.exe -Xms512m -Xmx2048m。我原本就在用vbs脚本打开xmind文件，就直接写进去了，但是我感觉不到优化，写上来看看你试一下行不行吧
xmind文件大，导致运行缓慢且无法保存
沃德康特先生: 没有jre目录只有locales、resources、swiftshader三个目录和一些文件，我也是找不到ini文件
feign启用网络压缩
辰一更: 当打开debug日志的时候， logging: level: com.***.***Client: debug 你在调用feign，会发现这种方式其实是没被压缩的。压缩需要返回的结构为 byte[]

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

zhangyingchengqi 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。