前言:
接触了python这门语言后,我发现了它许多的优点以及便利的地方。最近想通过python来做一些数据获取以及数据处理,所以就开始学起了python爬虫。用requests库来爬取一个网页是非常简单的,短短几行代码就可以实现,但是也考虑到了爬虫的合法性,我觉得在这方面有必要强调并且提醒大家。
这时可能有人就会说了,爬虫不就是要爬一些不可告人的秘密才有价值吗?这么想的小伙伴,你们就要小心了,网络世界不是法外之地,如果爬取到一些不该爬取的用户信息或者一些关键的数据,被爬取方可能会将你告上法庭。如果贩卖关键数据给他人,网络警察也会将你们捉拿归案。
所以在这里强调,爬虫的作用是对可被爬取的数据进行大量收集并进行数据分析的工具,不是让大家扮演hacker去攻击人家服务器和偷取重要信息的。还望周知🌹
正文:
爬虫简单来说,就是把自己包装成用户发送请求给对方服务器用来获取对方服务器所返回的数据的。在国外,爬虫是有很明确的规定来规范它的,甚至用都不给用,但是在我们国内,是可以用作个人研究的,也就是可以将爬虫的数据用作个人研究,不过如果涉及到一些著作权问题是要另外声明的。
有很多小伙伴都想成为一名爬虫工程师,觉得当一名爬虫工程师很酷,能通过包装自己来骗过服务器从而获取到数据从而实现数据的收集。是的,这么看上去确实很不错。但是,我并不是很看好爬虫工程师这份职业,并不是不认可工程师,而是不认可将爬虫作为自己的事业。
首先,爬虫工程师这份工作的要求并不高,天花板也是显而易见的,他不是创新的