Scrapy+splash抓取js生成的数据

一、python、lua、js间参数传递原理

抓取过程是python调用splash的lua脚本,lua中又调用了js代码实现相关页面内容的提取及js动作的模拟。在python中通过meta的splash中的args设置python将要传入splash的参数信息,在splash中通过splash:jsfunc的接口封装js代码成为lua函数,进而将lua中的参数传入js代码中。

(1)具体形式如下:

meta = {

          'splash':{

                       'endpoint':'execute',

                       'args':{'lua_source':script,'pagenum':i+1}

                 }

      }

 

(2)具体形式如下:

local gotopage = splash:jsfunc([[

                        function(x) {

                           $('#goInt').val(x);

                           $('#contenttable:nth-child(4) td:nth-child(8) input').click();

                        }

                    ]])

gotopage(3)

 

 

二、总结在lua中jquery的调试方法

Lua脚本中所含的js代码,是在splash引擎中执行的,相关打印信息无法执行显示,为了保证jquery代码的正确性,可以对jquery代码进行单独调试。将要抓取的网页单独保存,在网页源码中导入jquery-1.4.2.min.js,在<script></script>中写入jquery代码,刷新页面就可以对jquery单独调试,调试通过后可以将jquery代码复制进lua中。

 

 

三、以国家药品食品监督管理局网站的数据抓取为例,总结splash的抓取流程,本流程中实现了翻页的动作,分别对翻页的每一页进行操作

首先、在start_requests方法中,对start_url集合中的url,加入meta信息,重新创建request。 在request中植入的js脚本中,不能出现操作本地文件的代码,否则会报http的400状态码,提示该请求不合法,因此保存抓取结果的持久化操作,只有在python的scrapy 的parse中进行;

其次、第一次会返回首页信息及总页数信息,在根据得到的总页数信息,在parse中创建总页数个request,每个request的splash中接收当前的页数,通过模拟跳转到该页进行当前页内容的获取。

附:模拟点击“下一页”,直到“下一页”按钮失效,虽然能将内容抓到,但是在请求中无法通过写文件进行保存,写文件代码会被视为不合法的request请求。

抓取的数据格式如下:

 


抓取的数据格式如下:

 

1.北京东邵渠食品厂(SC11711281711709)"content.jsp?tableId=120&tableName=TABLE120&tableView=食品生产许可获证企业(SC)&Id=594"

2.北京顺利康食品有限公司(SC12411132511803)"content.jsp?tableId=120&tableName=TABLE120&tableView=食品生产许可获证企业(SC)&Id=595"

3.贵港市新鑫米业有限公司(SC10145080300039)"content.jsp?tableId=120&tableName=TABLE120&tableView=食品生产许可获证企业(SC)&Id=596"

4.北京尚世超越食品有限责任公司(SC13111130311819)"content.jsp?tableId=120&tableName=TABLE120&tableView=食品生产许可获证企业(SC)&Id=597"

5.北京溪漫昌兴饮用水有限公司



  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
当使用 Scrapy 和 Selenium 结合进行网页动态加载数据的爬取时,可以按照以下步骤进行操作: 1. 安装所需库:确保已安装 Scrapy 和 Selenium 库。可以使用以下命令进行安装: ``` pip install scrapy pip install selenium ``` 2. 创建 Scrapy 项目:使用以下命令创建一个新的 Scrapy 项目: ``` scrapy startproject dynamic_scraping ``` 3. 创建 Spider:进入项目目录,并使用以下命令创建一个新的 Spider: ``` cd dynamic_scraping scrapy genspider example example.com ``` 这将在 `spiders` 目录下创建一个名为 `example.py` 的 Spider。 4. 配置 Spider:打开 `example.py` 文件,并按照以下示例进行配置: ```python import scrapy from scrapy_selenium import SeleniumRequest from scrapy.selector import Selector class ExampleSpider(scrapy.Spider): name = 'example' allowed_domains = ['example.com'] def start_requests(self): yield SeleniumRequest( url='https://example.com', callback=self.parse ) def parse(self, response): sel = Selector(response) # 在这里使用 XPath 或 CSS 选择器提取动态加载的数据 # 示例:提取标题 title = sel.xpath('//h1/text()').get() print(title) ``` 在上面的示例中,我们使用了 `SeleniumRequest` 替代了普通的 `scrapy.Request`,这使得 Scrapy 可以使用 Selenium 来处理动态加载的内容。 5. 配置 Selenium:为了使用 Selenium,你需要配置相关的 Web 驱动程序。根据你使用的浏览器,下载并安装相应的驱动程序,并将其添加到系统的 PATH 环境变量中。 6. 运行 Spider:使用以下命令运行 Spider: ``` scrapy crawl example ``` 这将启动爬取过程,并在控制台上打印出提取的动态加载数据。 通过以上步骤,你可以使用 Scrapy 和 Selenium 结合进行爬取动态加载数据的操作。你可以根据实际需求修改 Spider 中的代码来提取所需的数据,并将其保存到文件或数据库中。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值