Scrapy+Splash爬取京东python书本信息（遇到的问题记录）

最新推荐文章于 2021-11-04 18:39:14 发布

余蝈蝈

最新推荐文章于 2021-11-04 18:39:14 发布

阅读量342

点赞数

本文链接：https://blog.csdn.net/yanjizang0663/article/details/83420509

版权

今天用splash进行京东的图书的爬虫。有了以下几点的错误总结:

（1）按照参考书上的方式，写好lua_script文件。但是自己在lua_script文件后面加了几个中文注释，结果运行时一直出错，后来意识到了问题，将这些中文注释给删除了，这时候才没有提示刚刚出现的错误。

（2）后来在执行lua_script文件总是提示我的javascript文件出错，一直百思不得其解。其实自己刚开始按照书上的提示在网络监听中输入同样的jQuery语言时，也会出现提示的错误，这个问题我没有解决。后来在程序的运行中，不知道是不是因为网络的缘故，再次在网络监听的Console中输入同样的jQuery语言时，已经不提示任何的错误信息了。我在jQuery中执行的语句是：
document.getElementsByClassName('page')[0].scrollIntoView(true)这句话的目的是，将页面下拉到后面，因为是爬取京东的书籍，而书籍是通过下拉的方式加载出后半部分的，所以通过执行该语句加载出全部的书籍。刚开始出现的错误，在后面运行该语句时又没有问题了，而且运行python代码也能够将书本的基本信息爬取下来，具体是什么问题我也不知道，可能真的是网络的奥秘吧。

（3）后面在爬取的过程中也有问题存在，主要的问题还是，使用下拉方式触发数据的加载有时会失败，即有时候通过lua_script代码中的执行加载不能成功。这个问题暂时还不知道是什么愿意，难道又是因为网络的问题？？？，希望有谁能告诉我啊。。。。

（4）在保存数据时，发现了数据不是按照网页上的顺序进行保存的，而是乱序保存的，这个问题我上网查找了相关的答案，有解释比较通的就是因为scrapy是多线程爬虫，所以爬下来一般都是乱的。可以在爬取后，单独对json文件里的数据重新排序的。

（5）最后总结：任重而道远啊，一步步踏实的走下去，遇到问题真的是很痛苦，但是解决问题也会很开心。其中还有很多很多未知的问题等着自己去发掘。菜鸟记录，大神看到了如果略知一二，不吝赐教。

余蝈蝈

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Scrapy+Splash爬取京东python书本信息（遇到的问题记录）

今天用splash进行京东的图书的爬虫。有了以下几点的错误总结:（1）按照参考书上的方式，写好lua_script文件。但是自己在lua_script文件后面加了几个中文注释，结果运行时一直出错，后来意识到了问题，将这些中文注释给删除了，这时候才没有提示刚刚出现的错误。（2）后来在执行lua_script文件总是提示我的javascript文件出错，一直百思不得其解。其实自己刚开始按照书上...
复制链接

扫一扫