JAVA读取网页里超链接资源到本地

最新推荐文章于 2022-08-18 14:26:13 发布

皓月行空

最新推荐文章于 2022-08-18 14:26:13 发布

阅读量3.2k

点赞数 1

分类专栏： java 文章标签： JAVA读取网页文件到本地

本文链接：https://blog.csdn.net/zhaoxinglin123/article/details/51800697

版权

java 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

简单介绍：

网址：http://introcs.cs.princeton.edu/java/data/

这是算法那本书配套的网站，在上面那个网址中，存放的是各个测试数据文本文件，在该网页中，以表格的形式列出了测试数据的文件，现在需要从这个网页中下载这些测试数据的文本文件，代码如下：

另外，需要在下载jsoup.jar文件导入到项目中

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileWriter;
import java.io.InputStreamReader;
import java.net.URL;
import java.net.URLConnection;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;

public class MyGetHrefFromHtml {

    /**
     * description:       读取网页文件到本地
     * @param args
     * @return
     */
    public static void readFileFromWEBtoNative(String url,String fileName){
        try{
            URL myUrl=new URL(url);
            URLConnection conn=myUrl.openConnection();
            conn.connect();
            BufferedReader reader=new BufferedReader(new InputStreamReader(conn.getInputStream()));
            String line="";
            File file=new File(fileName);

//该代码必须保证文档目录结构存在，如果不存在，会报错

//如果完善的话，可以判断是否存在文件夹，然后再判断是否存在文件，如果不存在，可以先创建文档结构，在创建文件

            if(!file.exists()){System.out.println("文件不存在");file.createNewFile();}
            BufferedWriter out=new BufferedWriter( new FileWriter(file));

            while((line=reader.readLine())!=null){
                out.write(line);
                out.newLine();
            }

        }catch(Exception e){
            e.printStackTrace();
        }
    }
    public static void main(String[] args) throws Exception {
        // TODO Auto-generated method stub

        String htmlURL="http://introcs.cs.princeton.edu/java/data/";
       Document doc=Jsoup.connect(htmlURL).get();
       //获取该页面的指定ID 标签下的每行第一个单元格里的超链接
       Elements links =doc.select("#content tr td:first-child a");
       System.out.println(links.size());
       String href=null;
       for(int i=0;i<links.size();i++){
           href=links.get(i).attr("href");
           readFileFromWEBtoNative(htmlURL+href,"D:\\algs\\data\\"+href);
       }

    }

}

皓月行空

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
JAVA读取网页里超链接资源到本地

简单介绍：网址：http://introcs.cs.princeton.edu/java/data/这是算法那本书配套的网站，在上面那个网址中，存放的是各个测试数据文本文件，在该网页中，以表格的形式列出了测试数据的文件，现在需要从这个网页中下载这些测试数据的文本文件，代码如下：另外，需要在下载jsoup.jar文件导入到项目中 import java.io.Buffered
复制链接

扫一扫

专栏目录