python爬虫使用selenium动态加载(下拉加载)爬取取环球网疫情新闻标题和链接,
当你爬数据的时候有没有遇到过向某个URL请求数据,响应回来的页面源码不全,明明在浏览器打开能看到,可到自己爬的时候就是看不到。其实是因为你爬取的页面是动态网页,很多数据是要加载才能渲染出来的。比如爬取环球网文章页面: 环球网.这个时候通过request库就不太适合爬取动态网页了。主流是通过selenium去爬取。Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,Selenium 可以直接调用浏览器,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器),可以接
原创
2021-03-31 13:41:20 ·
2356 阅读 ·
0 评论