Java数据爬虫程序jsoup

本文介绍了如何在Java中使用Jsoup库进行数据爬取。首先讲解了导入Jsoup相关包的步骤,接着详细阐述了Jsoup在数据抓取中的实际应用,并通过Rule.java和ExtractService.java两个关键类的解析,展示了爬虫程序的具体实现过程。
摘要由CSDN通过智能技术生成

1、导入包

<dependency>
	 <!-- jsoup HTML parser library @ https://jsoup.org/ -->
	  <groupId>org.jsoup</groupId>
	  <artifactId>jsoup</artifactId>
	  <version>1.11.2</version>
	</dependency>


2、程序应用

package com.zemel.pc;

import java.util.ArrayList;
import java.util.List;

public class Test2 {

	/**
	 * 
	 * @author Administrator
	 * @time 2018-4-8 上午10:15:29
	 * @param args
	 */
	public static void main(String[] args) {
		// TODO Auto-generated method stub
		
		
			List<String> proList = new ArrayList<String>();
			proList.add("http://yz.chsi.com.cn/zsml/kskm.jsp?id=1000121023010107061");
	
			// 读取
	
	
			for(String prof : proList){
				Rule rule = new Rule(prof,
						new String[]{}, new String[]{},
						"table.zsml-condition", Rule.SELECTION, Rule.GET);
				String str = ExtractService.extract(rule).toString();
				
				String code = prof.substring(prof.indexOf("id=")+3);
				str = str + " " + code.substring(code.length() - 9, code.length()-3);
				System.out.println(str);
			}

	}

}

3、Rule.java

package com.zemel.pc;

public class Rule {

	  /** 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值