java写一个自动爬取统计局公开数据的程序

最新推荐文章于 2024-07-10 21:37:49 发布

q56731523

最新推荐文章于 2024-07-10 21:37:49 发布

阅读量383

点赞数

文章标签： java python 开发语言 kotlin android 后端

本文链接：https://blog.csdn.net/weixin_44617651/article/details/134331093

版权

在Java中，爬取网站内容的最常用的库是Jsoup。以下是一个简单的爬虫程序示例，它将爬取统计局网站上的公开采集内容：

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;

public class WebSpider {
    public static void main(String[] args) {
        // 设置爬虫ip信息
        String proxyHost = "duoip";
        int proxyPort = 8000;

        try {
            // 创建Jsoup实例，并设置爬虫ip
            Document document = Jsoup.connect("stats.gov").userAgent("Mozilla/5.0").connectTimeout(10000).proxy(proxyHost, proxyPort).get();

            // 获取网页内容
            String content = document.body().html();

            // 输出网页内容
            System.out.println(content);

            // 使用Jsoup解析网页内容
            Elements elements = document.select("div.statistic");

            // 遍历每个子元素
            for (Element element : elements) {
                // 获取子元素的文本
                String text = element.text();

                // 输出子元素的文本
                System.out.println(text);
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}