爬虫是否违法

最新推荐文章于 2024-07-31 22:11:56 发布

zhangvalue

最新推荐文章于 2024-07-31 22:11:56 发布

阅读量6.9k

点赞数 3

分类专栏：程序人生

本文链接：https://blog.csdn.net/zhangvalue/article/details/103065700

版权

程序人生专栏收录该内容

11 篇文章 0 订阅

订阅专栏

爬虫是否违法

关注的焦点：

我们需要明确的一点是并非是爬虫这种“技术”是否合法，而是使用爬虫获取数据的“行为”是否合法。

前言：

9月份参加一个某银行的数据相关岗位面试的时候，面试官直接问道：你之前的实习经历中有一段这个爬虫实习生的经历，能简单的说一下你对这个爬虫数据的看法，当时回答技术肯定没有问题的，想要防止数据不被非法利用，一方面是通过加强相关的反爬虫技术，但是道高一尺魔高一丈只要是技术都会有被攻破的一天，这个不是长久之计，计算机相关的法律还不够完善，需要相关人士去推动，需要的是整个计算机信息安全领域的法律的完善，相关人员的职业道德素质的提升。

技术无罪：

技术是无罪的，技术本身确实是没有对错的，但使用技术的人是有对错的，公司或者程序员如果明知使用其技术是非法的，那么公司或者人就需要为之付出代价。爬虫本身并不违法，而是看你使用的方式和目的，还要看是不是商业用途。
最近也出了一个新闻：只因写了一段爬虫，公司200多人被抓，就是下图巧达科技。
导致这次事件的起因，公司工程师写的爬虫代码将对方的服务搞挂了（这就构成了了“破坏计算机信息系统罪”)
在今年国家颁布《中华人民共和国网络安全法》之后，很多以前处于灰色地带的业务都不能做了。
最新的安全法强调：贩卖个人信息超过50条属于“情节严重”，需要追求其法律责任。还有很多涉及版权信息的网站，比如书籍、影视剧、课程等后期也会面临越来越严格的审查，这就是目前大的形势。
2014年12月20日，人人影视字幕站发布微博称，人人影视正式关闭，并表示或将继续为正版商提供翻译服务，也可能转变为讨论社区的形式。
2019年6月，吾爱破解因版权问题关站整改…

什么样的爬虫是非法的：

爬虫不能涉及个人隐私
如果爬虫程序采集到公民的姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等个人信息，并将之用于非法途径的，则肯定构成非法获取公民个人信息的违法行为。也就是说你爬虫爬取信息没有问题，但不能涉及到个人的隐私问题，如果涉及了并且通过非法途径收益了，那肯定是违法行为。
下列三种情况，爬虫有可能违法，严重甚至构成犯罪：
1.爬虫程序规避网站经营者设置的反爬虫措施或者破解服务器防抓取措施，非法获取相关信息，情节严重的，有可能构成“非法获取计算机信息系统数据罪”。
2.爬虫程序干扰被访问的网站或系统正常运营，后果严重的，触犯刑法，构成“破坏计算机信息系统罪”
3.爬虫采集的信息属于公民个人信息的，有可能构成非法获取公民个人信息的违法行为，情节严重的，有可能构成“侵犯公民个人信息罪”。

现在网上有很多付费的课程，比如极客时间、Gitchat、慕课网、知识星球等等，这些付费内部信息如果被非法爬取手法出售获利，一种违法行为。

什么样的爬虫合法

遵守 Robots 协议
Robots 协议也叫 robots.txt（统一小写）是一种存放于网站根目录下的 ASCII 编码的文本文件，它通常告诉网络搜索引擎的漫游器（又称网络蜘蛛），此网站中的哪些内容是不应被搜索引擎的漫游器获取的，哪些是可以被漫游器获取的。
Robots 协议就是告诉爬虫，哪些信息是可以爬取，哪些信息不能被爬取，严格按照 Robots 协议爬取网站相关信息一般不会出现太大问题。
不能造成对方服务器瘫痪
但不是说只要遵守 Robots 协议的爬虫就没有问题，还涉及到两个因素，第一不能大规模爬虫导致对方服务器瘫痪，这等于网络攻击。
2019年05月28日国家网信办发布的《数据安全管理办法（征求意见稿）》中，拟通过行政法规的形式，对爬虫的使用进行限制：
网络运营者采取自动化手段访问收集网站数据，不得妨碍网站正常运行；此类行为严重影响网站运行，如自动化访问收集流量超过网站日均流量三分之一，网站要求停止自动化访问收集时，应当停止。
爬虫不能涉及个人隐私
恶意利用爬虫技术抓取数据，攫取不正当竞争的优势，甚至是牟取不法利益的，则可能触犯法律。实践中，非法使用爬虫技术抓取数据而产生的纠纷其实数量并不少，大多是以不正当竞争为由提请诉讼。
举个例子，如果你把大众点评上的所有公开信息都抓取了下来，自己复制了一个一模一样的网站，并且还通过这个网站获取了大量的利润，这样也是有问题的。
一般情况下，爬虫都是为了企业获利的，因此需要爬虫开发者的道德自持和企业经营者的良知才是避免触碰法律底线的根本所在。