换个思维，挺好！

最新推荐文章于 2023-09-05 19:34:04 发布

铭毅天下

最新推荐文章于 2023-09-05 19:34:04 发布

阅读量1.1k

点赞数

分类专栏：【工作积累】

本文为博主原创文章，未经博主书面授权不得转载。书面授权后方可转载，但转载请务必加上原作者：铭毅天下，原文地址：blog.csdn.net/laoyang360

本文链接：https://blog.csdn.net/laoyang360/article/details/72850572

版权

【工作积累】专栏收录该内容

50 篇文章 4 订阅

订阅专栏

1、题记

在爬取数据时，会遇到分页爬取的问题。传统的方法是获取到页数xpath，然后逐页面进行解析。
但是受开发模型不易扩展的影响，没有实现。
后来，转换下思维，很快实现。
这里写图片描述

2、换个思维

程序搁浅了，昨晚发现，完全可以换个思维。
由于网页分页存在以下特点：
第一页：http://www.xxx.com/facuty/XCoLUn/menen_1.htm
第二页：http://www. xxx .com/facuty/XCoLUn/menen_2.htm
第三页： http://www. xxx .com/facuty/XCoLUn/menen_3.htm

就想到直接外层套个循环即可，当分页出现解析为空的时候，
说明当前页没有内容，停止循环即可。

//原有入口地址： entryUrl
//分页后处理地址：
for(int i = 1; i <= 20; i++){
String strTmp = "/ menen_" + i +".htm";
String curUrlPage = entryUrl.replace(".htm", strTmp);
System.out.println("curPage =" + curUrlPage);

.......

if (results == null || results.size() == 0) {
logger.error("网页抽取失败, entryURL=" + curUrlPage);
logger.error(title + "最大页数: " + (i-1));
break;
}
}