Robots协议
Robots Exclusion Standard 网络爬虫排除标准
作用:告知网络爬虫哪些可以爬取,哪些不可以
形式:在网站根目录下的robots.txt文件
例如京东的网站:
Robots协议基本语法:
#注释 *代表所有 \代表根目录
User-agent: *
Disallow: /
Robots协议的使用
网络爬虫:
Robots协议
Robots Exclusion Standard 网络爬虫排除标准
作用:告知网络爬虫哪些可以爬取,哪些不可以
形式:在网站根目录下的robots.txt文件
例如京东的网站:
Robots协议基本语法:
#注释 *代表所有 \代表根目录
User-agent: *
Disallow: /
Robots协议的使用
网络爬虫: