使用scrapy+splash+Lua脚本实现滚轮动态加载爬取CSDN

最新推荐文章于 2024-08-10 08:30:14 发布

裸睡的雨

最新推荐文章于 2024-08-10 08:30:14 发布

阅读量4.7k

点赞数 2

分类专栏： docker python scrapy splash Lua Python爬虫基础到进阶文章标签： docker splash python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhao_5352269/article/details/82885166

版权

爬取CSDN的时候发现，csdn需要一直使用鼠标滑轮下拉，动态加载

使用Lua脚本，详细解释见官方文档https://splash.readthedocs.io/en/stable/

function main(splash, args)
  splash:go(args.url)
  local scroll_to = splash:jsfunc("window.scrollTo")
  scroll_to(0, 300)
  splash:set_viewport_full()
  return {png=splash:png()}
end

发现可以获取到滑动以后的内容

接下来就是如何将该脚本结合到scrapy中，工具使用的是pycharm

class CSDNSpider(scrapy.Spider):

    name = 'test'
    def start_requests(self):

        # script = """
        #             function main(splash,args)
        #                 splash:set_viewport_size(1028, 10000)
        #                 splash:go(args.url)
        #                 local scroll_to &

最低0.47元/天解锁文章

关注

2
点赞
踩
21

收藏

觉得还不错? 一键收藏
打赏
8
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

裸睡的雨 CSDN认证博客专家 CSDN认证企业博客

码龄9年

136: 原创

5万+: 周排名

203万+: 总排名

29万+: 访问

: 等级

3964: 积分

71: 粉丝

81: 获赞

90: 评论

310: 收藏

私信

关注

热门文章

分类专栏

最新评论

APP 逆向 --- du APP 逆向
以太猪猪: 这个hook是用什么运行的，编程猫吗
Python文件读写模式r,r+,w,w+,a,a+的区别
Kamen Black君: 已收藏与点赞，欢迎回访！
[m(2) for m in multipliers()]-------面试题
爱看书的小鱼: 调试模式，是先运行四次，然后打印列表，得到四个地址，在运行的话，就直接重复运行匿名函数那一句，重复了四次，。我理解是闭包调用外部白能量，这部分计算机就记录了运行逻辑，等到运行到有输入那一步的时候，然后把数据带入，运行得到结果。但是我看了另外一个帖子，那个分析了半天，说是跟闭包没关系，我自己很菜，我感觉应该还是必包。不过这个题，设涉及的知识点真的不少，我刚学，直接蒙了
[m(2) for m in multipliers()]-------面试题
爱看书的小鱼: 确实，应该是这样，我自己也被这个搞了半天想不明白
使用scrapy+splash+Lua脚本实现滚轮动态加载爬取CSDN
qq_38478804: 其实这个并没有加载新的ajax页面，只是设置了浏览器视口大小以适应整个页面，下滑那个操作没起到作用

最新文章

目录

评论 8

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

裸睡的雨 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。