Java+XPath爬取网页数据

最新推荐文章于 2024-07-27 17:56:15 发布

weixin_51754359

最新推荐文章于 2024-07-27 17:56:15 发布

阅读量830

点赞数

分类专栏：【Java】【网络爬虫】文章标签： java html

原文链接：https://blog.csdn.net/liu857279611/article/details/71244224?utm_source=blogxgwz8

版权

【Java】同时被 2 个专栏收录

14 篇文章 2 订阅

订阅专栏

【网络爬虫】

4 篇文章 0 订阅

订阅专栏

原文链接：https://blog.csdn.net/liu857279611/article/details/71244224?utm_source=blogxgwz8
案例：本文主要描述如何使用XPath爬取网页指定数据（IP的物理位置）
解决问题：爬取网页指定数据
一、首先创建一个maven工程，配置依赖包

<dependencies>
        <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.10.2</version>
        </dependency>

        <dependency>
            <groupId>javax.xml</groupId>
            <artifactId>jaxp-api</artifactId>
            <version>1.4.2</version>
        </dependency>
        
        <dependency>
            <groupId>net.sourceforge.htmlcleaner</groupId>
            <artifactId>htmlcleaner</artifactId>
            <version>2.9</version>
        </dependency>
    </dependencies>

二、开始写入自动化测试代码

public class Test {

    public static void main(String[] args) throws IOException, XPatherException, ParserConfigurationException, XPathExpressionException {
        String url = "http://ip.chinaz.com/?IP=111.142.55.73";
        String exp = "//*[@id=\"leftinfo\"]/div[3]/div[2]/p[2]/span[4]";

        String html = null;
        try {
            Connection connect = Jsoup.connect(url);
            html = connect.get().body().html();
        } catch (IOException e) {
            e.printStackTrace();
        }
        HtmlCleaner hc = new HtmlCleaner();
        TagNode tn = hc.clean(html);
        Document dom = new DomSerializer(new CleanerProperties()).createDOM(tn);
        XPath xPath = XPathFactory.newInstance().newXPath();
        Object result;
        result = xPath.evaluate(exp, dom, XPathConstants.NODESET);
        if (result instanceof NodeList) {
            NodeList nodeList = (NodeList) result;
            //System.out.println(nodeList.getLength());
            for (int i = 0; i < nodeList.getLength(); i++) {
                Node node = nodeList.item(i);
                System.out.println(node.getNodeValue() == null ? node.getTextContent() : node.getNodeValue());
            }
        }
    }

}

三、运行结果

福建省泉州市 中移铁通

weixin_51754359

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Java+XPath爬取网页数据

原文链接：https://blog.csdn.net/liu857279611/article/details/71244224?utm_source=blogxgwz8案例：本文主要描述如何使用XPath爬取网页指定数据（IP的物理位置）解决问题：爬取网页指定数据一、首先创建一个maven工程，配置依赖包<dependencies> <dependency> <groupId>org.jsoup</groupId&g
复制链接

扫一扫

专栏目录