htmlparser 基础 网页拔取

本文演示了如何使用htmlparser库从指定网页中提取应用的名称、版本、大小等信息,并进行下载操作。通过设置过滤器定位目标标签,解析并输出网页文本,最后将数据保存到数据库。
摘要由CSDN通过智能技术生成


拔取网页  是http://mm.10086.cn/android/info/300008730468.html?from=www&fw=227062网页


打开网页 网页的bug模式(F12)




找出你想要爬取的数据 


代码


package com.baidu;

import org.htmlparser.Node;
import org.htmlparser.Parser;
import org.htmlparser.Tag;
import org.htmlparser.filters.AndFilter;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.filters.HasChildFilter;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;


import com.baidu.apply.bean.Apply;
import com.baidu.util.WebUtils;
import com.baidu.util.httpDownload;


public class HtmlParse {



    public static void main(String[] args) throws ParserException {

     
    Parser parse=new Parser("http://mm.10086.cn/android/info/300008730468.html?from=www&fw=227062");
    parse.setEncoding("UTF-8");
    //获取应用的名称
    Apply apply=new Apply();
    String appName="";
     
    TagNameFilter nameFilter = new TagNameFilter("div");
     
    AndFilter andFilter = new AndFilter(nameFilter, new HasAttributeFilter("class","mj_big_title font-f-yh"));
     
    NodeList list= parse.parse(andFilter); 
   
    Tag tag=(Tag) list.elementAt(0);
   
    System.out.println(tag.toPlainTextString());
   
    //清零
    parse.reset();
   
   
   

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值