获取HTML网页的所有图片的url

主要使用了HtmlParser类解决问题。

必须导入htmlparser.jar包,读者可从网上自行下载。

下面直接贴上源码:

	public NodeList parser(String url) throws ParserException{  
		
        /**根据Url创建parser对象**/  
        Parser parser =  new Parser(url);  
         
        /**设置编码,必须与Url编码一样 **/  
        parser.setEncoding("utf-8");  
         
        /** 构建一个Html页面对象 **/  
        HtmlPage htmlPage = new HtmlPage(parser);  
        parser.visitAllNodesWith(htmlPage);  
         
        /** 获取Body下面所有的节点,可以想象成类似树状结构 **/  
        NodeList list = htmlPage.getBody();  
         
        /** 建立一个Filter,用于过滤节点,此处获得形如“<img></img>”这样的节点 **/  
        NodeFilter filter = new TagNameFilter("IMG");  
         
        /** 得到过滤后的节点 **/  
        list = list.extractAllNodesThatMatch(filter, true);  
         
        for(int c =0; c < list.size(); c ++){  
        		ImageTag imageTag=(ImageTag)list.elementAt(c);
        		/** 输出图片的链接Url **/
        		System.out.println(imageTag.getImageURL());
        }  
        return list;  
    }  
     
    public static void main(String[] args) throws ParserException {  
    	Demo demo = new Demo();  
    	demo.parser("http://www.163.com");
    } 

输出结果就是一堆图片的链接了。

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
要使用XPath获取图片URL,你需要导入lxml库,并使用lxml的etree模块。首先,你需要先访问网页并将其内容保存在一个变量中。然后,你可以使用XPath表达式来找到包含图片URL的元素。最后,你可以提取出图片URL并进行进一步处理。以下是一个示例代码: ```python import requests from lxml import etree # 发送请求并获取网页内容 url = 'https://pic.netbian.com' response = requests.get(url) html = response.text # 使用etree模块解析网页内容 tree = etree.HTML(html) # 使用XPath表达式获取图片URL image_urls = tree.xpath('//div[@class="slist"]//li/a/img/@src') # 输出图片URL for image_url in image_urls: print(image_url) ``` 这段代码首先导入了requests库和lxml库的etree模块,然后发送了一个请求并获取了网页的内容。接下来,使用XPath表达式`//div[@class="slist"]//li/a/img/@src`找到了包含图片URL的元素。最后,通过遍历图片URL列表,将每个URL打印出来。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [python爬虫系列:xpath爬取图片讲解(零基础向)](https://blog.csdn.net/m0_58288142/article/details/118155563)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值