第二章 网络爬虫之规则 2-2网络爬虫的“盗亦有道”

文章截图均来自中国大学mooc Python网络爬虫与信息提取的教程,以上仅作为我的个人学习笔记。

下面是教程链接https://www.icourse163.org/learn/BIT-1001870001?tid=1450316449#/learn/content?type=detail&id=1214620493&cid=1218397635&replay=true


常用的网络爬虫可以分为三大类(按照对象的规模划分):

网络爬虫引发的问题:骚扰、法律问题(产权问题)、个人很大的隐私泄露的问题

        

限制方法(来源审查是技术上的、发布公告是道德上的):


Robots协议(网络爬虫排除标准)

  • 作用:告诉网络爬虫哪些页面可以爬取,哪些不能爬取
  • 具体使用:在网站的根目录下面放置一个robots.txt文件

案例:京东的Robots协议:

User-agent: *                        #意思是无论是什么样的网络爬虫都应该遵守如下的协议
Disallow: /?*                        #任何爬虫都不可以访问以问号开头的路径
Disallow: /pop/*.html                #符合这个通配符的都不可以访问
Disallow: /pinpai/*.html?* 
User-agent: EtaoSpider               #下面这四个网络爬虫都不可以爬取京东的任何资源
Disallow: /                       
User-agent: HuihuiSpider             #是被发现的恶意爬虫
Disallow: / 
User-agent: GwdangSpider 
Disallow: / 
User-agent: WochachaSpider 
Disallow: /


#基本语法:*代表所有 /代表根目录
User-agent: *
Disallow: /

但是并不是所有的网站都有:比如教育部的。

遵守方式:

  • 对于任何网络爬虫都需要能够自动或者人工(如果自己不写这样的代码的话)的识别robots.txt文件,再进行内容爬取
  • 然而Robots协议是建议但不是约束性的,网络爬虫可以不遵循,但存在法律风险

但是:类人类行为可以不遵循。


Robots协议的基本语法。

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值