_爬虫
文章平均质量分 88
Xiunneg
这个作者很懒,什么都没留下…
展开
-
Selenium爬取实战
这个网站使用了Ajax渲染,但是仔细观察URL的构成可以发现,详情页和列表页的URL都变为了。的格式,这代表我们不能够通过构造URL来爬取各个页面的内容了,因为加密参数。基于同样的逻辑,在等待加载完之后,调用爬取详情页的函数就可以了。这个直接遍历了所有的页码,依次爬取了每一个列表页的URL。页面的详情页列表如图所示,所以用CSS选择器去选择。来模拟浏览器来绕过构造URL的过程,直接获取。渲染完成之后的页面源代码就可以了。可以看到爬取了那些加密的URL。原创 2023-07-23 15:11:53 · 66 阅读 · 0 评论 -
JavaScript动态页面的爬取「爬虫」
Selenium是一个自动化测试工具,使用它可以驱动浏览器完成特定的操作。可以使用它来获取浏览器当前呈现页面的源代码。对于用JavaScript动态渲染的页面来说,这种爬取方式非常有效。原创 2023-07-22 22:51:59 · 804 阅读 · 0 评论 -
aiohttp的使用【异步爬虫】
修能的博客asyncio模块,其内部实现了对TCPUDP和SSL协议的异步操作支持,但是对于http的请求就只能用aiohttp库了。aiohttp是基于asyncio的异步http网络模块,它即提供了服务端,同时也提供了客户端。服务端可以用来搭建一个支持异步处理的服务器,用途是处理请求并返回响应。客户端时用来发起请求的,类似于requests库发起的一个http请求然后获得响应,区别是aiohttp时异步的,requests是同步的。爬虫主要了解客户端的使用。推荐查阅官方文档。原创 2023-07-20 18:38:00 · 756 阅读 · 0 评论 -
aiohttp异步爬取实战【异步爬虫】
这次要实战爬取一个数据量比较大的网站more。原创 2023-07-20 18:44:28 · 550 阅读 · 0 评论 -
基础爬虫实战: 抓取静态网页的信息【爬虫】
利用request库来爬取简单的静态网页,用JSON格式存储爬取的数据的一个简单的项目原创 2023-07-19 00:46:02 · 1430 阅读 · 1 评论 -
异步爬虫,简单的单线程爬虫与aiohttp异步爬虫的区别【爬虫】
关于用aiohttp实现简单的异步爬虫原创 2023-07-19 00:38:00 · 535 阅读 · 0 评论