简单介绍:
网址:http://introcs.cs.princeton.edu/java/data/
这是算法那本书配套的网站,在上面那个网址中,存放的是各个测试数据文本文件,在该网页中,以表格的形式列出了测试数据的文件,现在需要从这个网页中下载这些测试数据的文本文件,代码如下:
另外,需要在下载jsoup.jar文件导入到项目中
import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileWriter;
import java.io.InputStreamReader;
import java.net.URL;
import java.net.URLConnection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
public class MyGetHrefFromHtml {
/**
* description: 读取网页文件到本地
* @param args
* @return
*/
public static void readFileFromWEBtoNative(String url,String fileName){
try{
URL myUrl=new URL(url);
URLConnection conn=myUrl.openConnection();
conn.connect();
BufferedReader reader=new BufferedReader(new InputStreamReader(conn.getInputStream()));
String line="";
File file=new File(fileName);
//该代码必须保证文档目录结构存在,如果不存在,会报错
//如果完善的话,可以判断是否存在文件夹,然后再判断是否存在文件,如果不存在,可以先创建文档结构,在创建文件
if(!file.exists()){System.out.println("文件不存在");file.createNewFile();}
BufferedWriter out=new BufferedWriter( new FileWriter(file));
while((line=reader.readLine())!=null){
out.write(line);
out.newLine();
}
}catch(Exception e){
e.printStackTrace();
}
}
public static void main(String[] args) throws Exception {
// TODO Auto-generated method stub
String htmlURL="http://introcs.cs.princeton.edu/java/data/";
Document doc=Jsoup.connect(htmlURL).get();
//获取该页面的指定ID 标签下的每行第一个单元格里的超链接
Elements links =doc.select("#content tr td:first-child a");
System.out.println(links.size());
String href=null;
for(int i=0;i<links.size();i++){
href=links.get(i).attr("href");
readFileFromWEBtoNative(htmlURL+href,"D:\\algs\\data\\"+href);
}
}
}