写了个简单的爬虫

  1. 简单写了个爬京东评论的简单网页
  2. var configs = {  
  3.     domains: ["search.jd.com","item.jd.com","club.jd.com"],  
  4.     scanUrls: ["http://search.jd.com/Search?keyword=Python&enc=utf-8&qrst=1&rt=1&stop=1&book=y&vt=2&page=1&s=1&click=0"],  
  5.     contentUrlRegexes: ["http://item\\.jd\\.com/\\d+.html"],  
  6.     helperUrlRegexes: ["http://search\\.jd\\.com/Search\\?keyword=Python&enc=utf-8&qrst=1&rt=1&stop=1&book=y&vt=2&page=\\d+&s=1&click=0"],   
  7.     fields: [  
  8.         {  
  9.             // 第一个抽取项  
  10.             name: "title",  
  11.             selector: "//div[@id='name']/h1",  
  12.             required: true  
  13.         },  
  14.         {  
  15.             // 第一个抽取项  
  16.             name: "productid",  
  17.             selector: "//div[contains(@class,'fl')]/span[2]",  
  18.             required: true  
  19.         },  
  20.         {  
  21.             name: "comments",  
  22.             sourceType: SourceType.AttachedUrl,  
  23.             attachedUrl: "http://club.jd.com/productpage/p-{productid}-s-0-t-3-p-0.html",  
  24.             selectorType: SelectorType.JsonPath,  
  25.             selector: "$.comments",  
  26.             repeated: true,  
  27.             children:[  
  28.                 {  
  29.                     name: "com_content",  
  30.                     selectorType: SelectorType.JsonPath,  
  31.                     selector: "$.content"  
  32.                 },  
  33.                 {  
  34.                     name: "com_nickname",  
  35.                     selectorType: SelectorType.JsonPath,  
  36.                     selector: "$.nickname"  
  37.                 },  
  38.             ]  
  39.         }  
  40.     ]  
  41. };  
  42. configs.onProcessHelperUrl = function(url, content, site){  
  43.     if(!content.indexOf("抱歉,没有找到")){  
  44.         var currentPage = parseInt(url.substring(url.indexOf("&page=") + 6));  
  45.         if(currentPage == 0){  
  46.             currentPage = 1;  
  47.         }  
  48.         var page = currentPage + 2;  
  49.         var nextUrl = url.replace("&page=" + currentPage, "&page=" + page);  
  50.         site.addUrl(nextUrl);  
  51.     }  
  52.     return true;  
  53. };  
  54. var crawler = new Crawler(configs);  

  1. crawler.start();  
PS:爬虫脚本是用JS写的 

PPS:是在神箭手云爬虫平台上运行的 

请教:目前只能爬第一页的,一共是30条评论,请教怎么可以爬第二页的,这个不知道如何处理,有大神知道的嘛
 


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
未来社区的建设背景和需求分析指出,随着智能经济、大数据、人工智能、物联网、区块链、云计算等技术的发展,社区服务正朝着数字化、智能化转型。社区服务渠道由分散向统一融合转变,服务内容由通用庞杂向个性化、服务导向转变。未来社区将构建数字化生态,实现数据在线、组织在线、服务在线、产品智能和决策智能,赋能企业创新,同时注重人才培养和科研平台建设。 规划设计方面,未来社区将基于居民需求,打造以服务为中心的社区管理模式。通过统一的服务平台和应用,实现服务内容的整合和优化,提供灵活多样的服务方式,如推送式、订阅式、热点式等。社区将构建数据与应用的良性循环,提高服务效率,同时注重生态优美、绿色低碳、社会和谐,以实现幸福民生和产业发展。 建设运营上,未来社区强调科学规划、以人为本,创新引领、重点突破,统筹推进、整体提升。通过实施院落+社团自治工程,转变政府职能,深化社区自治法制化、信息化,解决社区治理中的重点问题。目标是培养有活力的社会组织,提高社区居民参与度和满意度,实现社区治理服务的制度机制创新。 未来社区的数字化解决方案包括信息发布系统、服务系统和管理系统。信息发布系统涵盖公共服务类和社会化服务类信息,提供政策宣传、家政服务、健康医疗咨询等功能。服务系统功能需求包括办事指南、公共服务、社区工作参与互动等,旨在提高社区服务能力。管理系统功能需求则涉及院落管理、社团管理、社工队伍管理等,以实现社区治理的现代化。 最后,未来社区建设注重整合政府、社会组织、企业等多方资源,以提高社区服务的效率和质量。通过建立社区管理服务综合信息平台,提供社区公共服务、社区社会组织管理服务和社区便民服务,实现管理精简、高效、透明,服务快速、便捷。同时,通过培育和发展社区协会、社团等组织,激发社会化组织活力,为居民提供综合性的咨询和服务,促进社区的和谐发展。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值