嗨,你好啊,初次见面,下面这些学习资料作见面礼送你,要一个关注不过分吧~,还想学什么留言或者悄悄跟我私信,咱们细细道来
百本图灵计算机经典系列书籍全送了👇祝你学途永无止境,历经千帆,归来年薪百万!
链接:https://pan.baidu.com/s/1mDGCIgH1s7dSD1uZ6Pml1Q
提取码:hvr0
b站爬取的最热门学习资源整理合集送了👇祝你成功!
链接:https://pan.baidu.com/s/184suePB-CJEbpAVWqpWIrg
提取码:0emq
数学建模资料,包含数学建模入门与进阶,数学建模经典算法,近10年优秀得奖论文,祝您旗开得胜!
链接:https://pan.baidu.com/s/1HZlnNDeYgu5-EZOxgrzECQ
提取码:svyg
爬虫概念
什么是爬虫?
简单说就是把网上的东西下载在自己设备上。把网上不能下载,不方便下载的东西通过技术手段下载下来。
爬虫是否合法?
爬虫在法律上是不被禁止的,但这不代表可以为所欲为。在进行爬虫时,应该安分守己,谨记做个遵纪守法的好公民。避免爬取隐私数据,在使⽤爬取到的数据时,发现涉及到⽤户隐私和商业机密等敏感内容时, ⼀定要及时终⽌爬取和传播。
是否可以反爬虫?
反爬虫就是通过技术手段防止被爬虫程序爬取到内容。不过既然是技术手段,就依然可以破解,所以反爬虫也是可以通过技术手段破解的,也就是反反爬虫,那既然如此,也就可以反反反爬虫,也就可以反反反反爬虫…哈哈哈哈哈哈哈哈哈无聊!
上面开启无限套娃了,怎么破?用君子协议。
robots.txt协议: 君⼦协议。规定了⽹站中哪些数据可以被爬⾍爬取
哪些数据不可以被爬取。
望文生义,既然是君子协议,就只对君子有效。君子协议的意义就在于运营者明确跟你说这里面的东西不方便被外人看到,希望你可以不要偷看这里面的东西。建议我们每个人都是君子。
举个例子:
既然是君子协议呢,咱么就要谨守道德,不去触碰别人君子协议里的东西,做一个安安静静的君子。
程序运行环境
- python 3.8
- Pycharm
有条件的或者厉害的人可以使用其他更厉害的工具。
关于软件的安装过程,网上已经有讲解足够清晰的资源,此处不再赘述。
举个爬虫小例子
这里我们要使用到Python
的urllib
库,这是Python内置的一个库,下载号python后直接使用即可不需要额外安装。
我们可以使用 urllib.request 的 urlopen 方法来打开一个 URL,然后使用 read() 函数获取网页的 HTML 实体代码。如下👇
from urllib.request import urlopen
url_content=urlopen(("http://www.baidu.com"))#打开百度
print(url_content.read().decode("utf-8"))#decode()函数将得内容按指定方式编码
以上,在控制台中成功输出百度网页的html文本,是不是十分简单!
关于urllib更多使用方法细则,感兴趣可以参见文末注脚①的链接1
当然,也可以将得到的内容不显示在控制台上&#x