什么是爬虫?
一段代码,能够自动从互联网上收集需要的东西(图片、视频、音频等)
源于互联网的两个特性:
♣ 信息可获取(能够通过打开一个浏览器可以看到的信息;法律允许的范围内)
♣ 信息具有关联性(从一个网页调到另一个网页)
爬虫用什么实现?
√ 理论上所有能允许的计算机语言
√ JavaScript、Java、PHP、Python……
☛ python是天命所归
爬虫推荐的浏览器
● Chorme
● Firefox
● Opear
爬虫的法律风险
★ 你爬取的信息必须是能看到的公开信息
★ 高频次访问对方网站属于攻击行为
● 因为代码级可以做到每分钟访问1万次,会造成对方网站的资源消耗;
● 可以每爬完一个网页,休息几秒