爬取CSDN的时候发现,csdn需要一直使用鼠标滑轮下拉,动态加载
使用Lua脚本,详细解释见官方文档https://splash.readthedocs.io/en/stable/
function main(splash, args)
splash:go(args.url)
local scroll_to = splash:jsfunc("window.scrollTo")
scroll_to(0, 300)
splash:set_viewport_full()
return {png=splash:png()}
end
发现可以获取到滑动以后的内容
接下来就是如何将该脚本结合到scrapy中,工具使用的是pycharm
class CSDNSpider(scrapy.Spider):
name = 'test'
def start_requests(self):
# script = """
# function main(splash,args)
# splash:set_viewport_size(1028, 10000)
# splash:go(args.url)
# local scroll_to &