正则表达式抓取网页资源

分享一个工具类,用户抓取网页上的图片、js、css等路径

传入

package lab2;


import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;


/**
 *    
 * 项目名称:lab   
 * 类名称:Snippet   
 * 类描述:TODO  根据html源码中的资源路径
 * 创建人: yy
 * 创建时间:2016年11月30日 下午5:26:38   
 * @version  
 */
 
public class Snippet {
	   /** 
	 * @Title: getSrc 
	 * @Description: TODO 获取指定标签的src属性集合
	 * @date 2016年11月30日
	 * @author yy
	 * @param @param htmlStr 网页源码
	 * @param @param htmlMark 标签名 eg. img
	 * @param @return   所有指定标签的src属性
	 * @return List<String>  
	 * @throws 
	 */
	public static List<String> getSrc(String htmlStr,String htmlMark){   
	            String ele="";   
	            Pattern p;   
	            Matcher m;   
	            List<String> res = new ArrayList<String>();
	            
	            String reg = "<"+htmlMark+".*src\\s*=\\s*(.*?)[^>]*?>"; //img:<img.*src\\s*=\\s*(.*?)[^>]*?>
	            p = Pattern.compile 
	                    (reg,Pattern.CASE_INSENSITIVE);   
	           m = p.matcher(htmlStr); 
	           while(m.find()){   
	        	   ele = ele + "," + m.group();   
	               Matcher mr  = Pattern.compile("src\\s*=\\s*\"?(.*?)(\"|>|\\s+)").matcher(ele);
	                while(mr.find()){
	                	res.add(mr.group(1));
	                }
	            }   
	            return res;   
	        } 
	   
	   /** 
	 * @Title: getHref 
	 * @Description: TODO 获取指定标签的href属性集合
	 * @date 2016年11月30日
	 * @author yy
	 * @param @param htmlStr 网页源码
	 * @param @param htmlMark 标签名 eg. a
	 * @param @return   所有指定标签的href属性
	 * @return List<String>  
	 * @throws 
	 */
	public static List<String> getHref(String htmlStr,String htmlMark){   
           String ele="";   
           Pattern p;   
           Matcher m;   
           List<String> res = new ArrayList<String>();
           
           String reg = "<"+htmlMark+".*href\\s*=\\s*(.*?)[^>]*?>"; //img:<img.*src\\s*=\\s*(.*?)[^>]*?>
           p = Pattern.compile 
                   (reg,Pattern.CASE_INSENSITIVE);   
          m = p.matcher(htmlStr); 
          while(m.find()){   
       	   ele = ele + "," + m.group();   
              Matcher mr  = Pattern.compile("href\\s*=\\s*\"?(.*?)(\"|>|\\s+)").matcher(ele);
               while(mr.find()){
               	res.add(mr.group(1));
               }
           }   
           return res;   
       } 
}




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值