java爬虫

最新推荐文章于 2024-06-20 07:15:00 发布

weixin_43676699

最新推荐文章于 2024-06-20 07:15:00 发布

阅读量102

点赞数

分类专栏：爬虫

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

目的：
通过网络爬虫爬取中国最小粒度的区域维度信息，包括省(Province) 、市(City)、县(County)、镇(town)、村委会(village)

主网站链接：
http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2015/index.html

主要jar包：
http://jsoup.org/packages/jsoup-1.8.1.jar

之前一节我们说过java爬虫从网络上利用jsoup获取网页文本，也就是说我们可以有三种方法获取html，一是根据url链接，而是从本地路径获取，三是通过字符串解析成html文档

在这里，我们利用前两种搭配使用：

先看本地是否存在需要的网页，如果不存在就通过url获取并保存在本地（下次就可以不需要重新从网络加载）

我们先建一个类叫做Html类，具体内容如下：

复制代码
package Product;
import java.io.BufferedInputStream;
import java.io.BufferedOutputStream;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.net.URL;
import java.util.ArrayList;
import java.util.Arrays;

import org.jsoup.;
import org.jsoup.nodes.;
import org.jsoup.select.*;
public class Html {

 //根据url从网络获取网页文本
public Document getHtmlTextByUrl(String url)
{
    Document doc = null;
    try {
        //doc = Jsoup.connect(url).timeout(5000000).get();
        int i = (int) (Math.random()*1000); //做一个随机延时，防止网站屏蔽

while(i!=0)
{ i–; }
doc= Jsoup.connect(url).data(“query”, “Java”)
.userAgent(“Mozilla”) .cookie(“auth”, “token”)
.timeout(300000) .post();
} catch (IOException e)
{ e.printStackTrace();
try {
doc = Jsoup.connect(url).timeout(5000000).get();
}
catch (IOException e1)
{ // TODO Auto-generated catch block e1.printStackTrace(); } }

return doc;
}

//根据本地路径获取网页文本，如果不存在就通过url从网络获取并保存

public Document getHtmlTextByPath(String name,String url)
{
String path = “D:/Html/” +name+".html";
Document doc = null ;
File input = new File(path);
String urlcat = url;
try {
doc = Jsoup.parse(input, “GBK”);
if(!doc.children().isEmpty())
{
doc=null; System.out.println(“已经存在”); }
}
catch (IOException e)
{
System.out.println(“文件未找到，正在从网络获取…”);
doc = this.getHtmlTextByUrl(url);
//并且保存到本地
this.Save_Html(url, name); } return doc; } //此处为保存网页的函数
复制代码
//将网页保存在本地（通过url,和保存的名字）
public void Save_Html(String url,String name) {
try {
name = name+".html";
// System.out.print(name);
File dest = new File(“D:/Html/” +name);//D:\Html
//接收字节输入流
InputStream is;
//字节输出流
FileOutputStream fos = new FileOutputStream(dest);

                 URL temp = new URL(url);
                 is = temp.openStream();
             
                 //为字节输入流加缓冲
                 BufferedInputStream bis = new BufferedInputStream(is);
                 //为字节输出流加缓冲
                 BufferedOutputStream bos = new BufferedOutputStream(fos);
         
                 int length;
         
                 byte[] bytes = new byte[1024*20];
                 while((length = bis.read(bytes, 0, bytes.length)) != -1){
                     fos.write(bytes, 0, length);
                 }
     
                 bos.close();
                 fos.close();
                 bis.close();
                 is.close();
             } catch (IOException e) {
                 e.printStackTrace();
             }
         }

复制代码

复制代码
这样通过Html这个类，调用getHtmlTextByPath函数，传入我们的链接和想要保存的名称，接下就可以对这个网页文本提取信息

并将整个网页下载到我们的本地。

看到我们的网站是这样的：

利用谷歌浏览右键检查元素，我们注意观察黄色标记的部分：

我们发现这些文本信息和超链接信息在tr 下的td下的a标签内，利用我们的jsoup可以直接获取到这些信息，详情请看：

复制代码
//根据元素属性获取某个元素内的elements列表
public Elements getEleByClass(Document doc,String className)
{
Elements elements= null;
elements = doc.select(className);//这里把我们获取到的html文本doc，和工具class名，注意
return elements; //此处返回的就是所有的tr集合
}
复制代码
我们在调用的时候，就直接把我们获取的html文本，以及"tr.provincertr"作为参数传入，在来解析tr集合内部的信息，

也就是td中两个a标签href和文本内容：比如href=“12.html” 北京

代码如下：

复制代码
//获取省、市、县等的信息
public ArrayList getProvince(String name,String url ,String type)
{ ArrayList result= new ArrayList();
//“tr.provincetr”
String classtype = “tr.”+type+“tr”;
//从网络上获取网页
// Document doc = this.getHtmlTextByUrl(url);
//从本地获取网页,如果没有则从网络获取
Document doc2 = this.getHtmlTextByPath(name,url);
System.out.println(name);
if(doc2!=null){
Elements es =this.getEleByClass(doc2,classtype); //tr的集合
for(Element e : es) //依次循环每个元素，也就是一个tr
{
if(e!=null){
for(Element ec : e.children()) //一个tr的子元素td，td内包含a标签
{
String[] prv = new String[4]; //身份的信息：原来的url（当前url）名称（北京）现在url（也就是北京的url）类型（prv）省
if(ec.children().first()!=null)
{
//原来的url
prv[0]=url; //就是参数url
//身份名称
System.out.println(ec.children().first().ownText());
prv[1]=ec.children().first().ownText(); //a标签文本如:北京
//身份url地址
//System.out.println(ec.children().first().attr(“href”));
//http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2015/index.html
String ownurl=ec.children().first().attr(“abs:href”); //北京的url
//因为如果从本地取得话，会成为本地url，所以保留第一次从网络上的url，保证url不为空
if(ownurl.length()<10)
{ connectOrcl c = new connectOrcl();
ownurl = c.selectOne(prv[1]); //从数据库中取，这是另一个调用数据库函数，根据名称取url
}
prv[2]=ownurl; //如：北京自己的url
System.out.println(prv[2]);
//级别
prv[3]=type; //就是刚刚传的类型，后面会有city 、county等
//将所有身份加入list中
result.add(prv);}
}}
}
}
return result; //反回所有的省份信息集合，存数据库，字段类型为： baseurl name ownurl levelname（type） updatetime
}
复制代码

java获取本机的名称和ip

复制代码
//获取本机名称和IP
public static void main(String[] args) {
InetAddress ia=null;
try {
ia = ia.getLocalHost();
String localname=ia.getHostName();
String localip=ia.getHostAddress();
System.out.println(“本机名称是：”+ localname);
System.out.println(“本机的ip是：”+localip);
} catch (UnknownHostException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
复制代码

java获取本机的屏幕分辨率,DPI,以及屏幕尺寸

屏幕分辨率：比如1366*768

DPI：意思是说一英寸多少个象素

屏幕的物理尺寸：屏幕的物理大小还需要知道屏幕的dpi ，然后用象素除以dpi 就可以得到多少英寸了

复制代码
//获取电脑屏幕信息
public static void getScreen()
{
Dimension screensize = Toolkit.getDefaultToolkit().getScreenSize();
int width = (int)screensize.getWidth();
int height = (int)screensize.getHeight();
System.out.println(“宽的像素：”+width+“高的像素：”+height);
//获取屏幕的dpi
int dpi = Toolkit.getDefaultToolkit().getScreenResolution();
System.out.println(dpi);
//根据dpi和像素，可以计算物理尺寸
System.out.println(“宽：”+width/dpi+“高：”+height/dpi);
}
复制代码

weixin_43676699

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java爬虫

目的：通过网络爬虫爬取中国最小粒度的区域维度信息，包括省(Province) 、市(City)、县(County)、镇(town)、村委会(village)主网站链接：http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2015/index.html主要jar包：http://jsoup.org/packages/jsoup-1.8.1.ja...
复制链接

扫一扫

专栏目录