JAVA读取网页里超链接资源到本地

简单介绍:

网址:http://introcs.cs.princeton.edu/java/data/

这是算法那本书配套的网站,在上面那个网址中,存放的是各个测试数据文本文件,在该网页中,以表格的形式列出了测试数据的文件,现在需要从这个网页中下载这些测试数据的文本文件,代码如下:

另外,需要在下载jsoup.jar文件导入到项目中

 


import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileWriter;
import java.io.InputStreamReader;
import java.net.URL;
import java.net.URLConnection;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;


public class MyGetHrefFromHtml {
   
    /**     
     * description:       读取网页文件到本地
     * @param args    
     * @return 
     */
    public static void readFileFromWEBtoNative(String url,String fileName){
        try{
            URL myUrl=new URL(url);  
            URLConnection conn=myUrl.openConnection();
            conn.connect();
            BufferedReader reader=new BufferedReader(new InputStreamReader(conn.getInputStream()));          
            String line="";
            File file=new File(fileName);


//该代码必须保证文档目录结构存在,如果不存在,会报错

//如果完善的话,可以判断是否存在文件夹,然后再判断是否存在文件,如果不存在,可以先创建文档结构,在创建文件

            if(!file.exists()){System.out.println("文件不存在");file.createNewFile();}
            BufferedWriter out=new BufferedWriter( new FileWriter(file));
           
            while((line=reader.readLine())!=null){
                out.write(line);
                out.newLine();            
            }
        
        }catch(Exception e){
            e.printStackTrace();
        }
    }
    public static void main(String[] args) throws Exception {
        // TODO Auto-generated method stub

        String htmlURL="http://introcs.cs.princeton.edu/java/data/";
       Document doc=Jsoup.connect(htmlURL).get();
       //获取该页面的指定ID 标签下的每行第一个单元格里的超链接
       Elements links =doc.select("#content tr td:first-child a");
       System.out.println(links.size());
       String href=null;
       for(int i=0;i<links.size();i++){
           href=links.get(i).attr("href");
           readFileFromWEBtoNative(htmlURL+href,"D:\\algs\\data\\"+href);
       }
           
    }

}

 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值