起因:
想爬取一个网站上的数据,但是这个网址不是一般的html,而是shtml,至于这两者的区别,大家可以自行百度,简单的说就是html一般都是静态网页,而shtml一般是动态网页,也就是我们在抓取的时候,不能真正得到网页上的数据,要想拿到数据,就要想别的办法,说这么多可能有点懵逼,简单例子如下:
当我们点击网页检查的时候如下所示,
可以看到很多数据都在网页上,但是当我们把这个网址作为目标网页的时候,你会发现你并不能取到数据,原因是什么呢?再当我们点击显示网页源代码的时候,会出现另外一个页面,如下所示:
我们发现一个很大的问题就是我们的数据在源代码里没有里,这也就是为什么我们明明看到数据在网页里,但是不能取到的原因,后来又发现网址的结尾是.shtml。这就更证明里源码里是不可能有数据的,因为是动态加载网页,所以为能获取数据,我们使用了一个工具就是selenium的工具,会真实打开浏览器爬取代码,效率低一些。
下面介绍一下Mac系统下 使用vs code软件来使用selenium。
1,安装selenium
Visual studio code控制