Scrapy+Splash爬取京东python书本信息(遇到的问题记录)

今天用splash进行京东的图书的爬虫。有了以下几点的错误总结:

(1)按照参考书上的方式,写好lua_script文件。但是自己在lua_script文件后面加了几个中文注释,结果运行时一直出错,后来意识到了问题,将这些中文注释给删除了,这时候才没有提示刚刚出现的错误。

(2)后来在执行lua_script文件总是提示我的javascript文件出错,一直百思不得其解。其实自己刚开始按照书上的提示在网络监听中输入同样的jQuery语言时,也会出现提示的错误,这个问题我没有解决。后来在程序的运行中,不知道是不是因为网络的缘故,再次在网络监听的Console中输入同样的jQuery语言时,已经不提示任何的错误信息了。我在jQuery中执行的语句是:
document.getElementsByClassName('page')[0].scrollIntoView(true)这句话的目的是,将页面下拉到后面,因为是爬取京东的书籍,而书籍是通过下拉的方式加载出后半部分的,所以通过执行该语句加载出全部的书籍。刚开始出现的错误,在后面运行该语句时又没有问题了,而且运行python代码也能够将书本的基本信息爬取下来,具体是什么问题我也不知道,可能真的是网络的奥秘吧。

(3)后面在爬取的过程中也有问题存在,主要的问题还是,使用下拉方式触发数据的加载有时会失败,即有时候通过lua_script代码中的执行加载不能成功。这个问题暂时还不知道是什么愿意,难道又是因为网络的问题???,希望有谁能告诉我啊。。。。

(4)在保存数据时,发现了数据不是按照网页上的顺序进行保存的,而是乱序保存的,这个问题我上网查找了相关的答案,有解释比较通的就是因为scrapy是多线程爬虫,所以爬下来一般都是乱的。可以在爬取后,单独对json文件里的数据重新排序的。

(5)最后总结:任重而道远啊,一步步踏实的走下去,遇到问题真的是很痛苦,但是解决问题也会很开心。其中还有很多很多未知的问题等着自己去发掘。菜鸟记录,大神看到了如果略知一二,不吝赐教。


 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值