初级通过正则爬虫网站的url

1 篇文章 0 订阅

在网上看了些爬虫视频然后自己手敲了份!纪念下自己初学爬虫,让自己以后乐一乐

package com.cd.spider.rule;

import java.util.ArrayList;
import java.util.List;

import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class ExtractService {
	
	public static List<LinkTypeData> extract(Rule rule){
		 validateRule(rule);
		 List<LinkTypeData> datas = new ArrayList<>();
		 LinkTypeData data = null;
		 try {
			String url = rule.getUrl();
			String[] params = rule.getParams();
			String[] values = rule.getValues();
			String resultTagName =rule.getResultTagName();
			int type = rule.getType();
			int requestType = rule.getRequestMoethod();
			Connection conn = Jsoup.connect(url);
			//设置查询参数
			if(params !=null){
				for(int i=0;i<params.length;i++){
					conn.data(params[i],values[i]);
				}
			}
			//设置请求类型
			Document doc = null;
			switch(requestType){
			case Rule.GET:
				doc=conn.timeout(100000).get();
				break;
			case Rule.POST:
				doc=conn.timeout(100000).post();
			}
			
			//处理返回数据类型
			Elements results = new Elements();
			switch (type) {
			case Rule.CLASS:
				results = doc.getElementsByClass(resultTagName);
				break;
			case Rule.SELECTION:
				results = doc.select(resultTagName);
				break;
			case Rule.ID:
				Element result = doc.getElementById(resultTagName);
				results.add(result);
				break;
			default :
				if(TextUtil.isEmpty(resultTagName)){
					results=doc.getElementsByTag("body");
				}
			}
			for(Element result:results){
				Elements links = result.getElementsByTag("a");
				for(Element link : links){
					String linkHref = link.attr("href");
					String linkText =link.text();
					data = new LinkTypeData();
					data.setLinkHref(linkHref);
					data.setLinkeText(linkText);
					datas.add(data);
				}
			}
		} catch (Exception e) {
			e.printStackTrace();
		}
		return datas;
	}

	private static void validateRule(Rule rule) {
		String url=rule.getUrl();
		if(TextUtil.isEmpty(url)){
			throw new RuleException("url不能为空!");
		}
		if (!url.startsWith("http://"))  
        {  
            throw new RuleException("url的格式不正确!");  
        }  
  
        if (rule.getParams() != null && rule.getValues() != null)  
        {  
            if (rule.getParams().length != rule.getValues().length)  
            {  
                throw new RuleException("参数的键值对个数不匹配!");  
            }  
        } 
		
	}
}


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值