java写爬虫

< dependency >
< groupId > org.jsoup </ groupId >
< artifactId > jsoup </ artifactId >
< version > 1.8.3 </ version >
</ dependency >

package com.tps.common ;

import org.jsoup.Jsoup ;
import org.jsoup.nodes.Document ;
import org.jsoup.select.Elements ;

import java.io.BufferedReader ;
import java.io.InputStreamReader ;
import java.net.URL ;
import java.net.URLConnection ;

/**
* ( 爬虫 )
*
* @author Sum
* @date 2017-09-29 9:13
*/
public class Robot {

public static void getQuestion ( int page ){
// 定义即将访问的链接
String url = "https://www.nowcoder.com/ta/review-java/review?page=" + page ;
// 定义一个字符串用来存储网页内容
String result = "" ;
// 定义一个缓冲字符输入流
BufferedReader in = null ;
try
{
// string 转成 url 对象
URL realUrl = new URL ( url );
// 初始化一个链接到那个 url 的连接
URLConnection connection = realUrl . openConnection ();
// 开始实际的连接
connection . connect ();
// 初始化 BufferedReader 输入流来读取 URL 的响应
in = new BufferedReader ( new InputStreamReader ( connection . getInputStream ()));
// 用来临时存储抓取到的每一行的数据
String line ;
while (( line = in . readLine ()) != null )
{
// 遍历抓取到的每一行并将其存储到 result 里面
result += line + " \n " ;
}
} catch ( Exception e )
{
System . out . println ( " 发送 GET 请求出现异常! " + e );
e . printStackTrace ();
} // 使用 finally 来关闭输入流
finally
{
try
{
if ( in != null )
{
in . close ();
}
} catch ( Exception e2 )
{
e2 . printStackTrace ();
}
}
// System.out.println(result);

Document doc = Jsoup . parse ( result );

Elements title = doc . getElementsByClass ( "final-question" );
System . out . println ( page + "." + title . get ( 0 ). ownText ());

Elements question = doc . getElementsByClass ( "design-answer-box" );
System . out . println ( question . get ( 0 ). ownText ());

System . out . println ( question . get ( 0 ));


}

public static void main ( String [] args )
{
/*for(int i=1;i<120;i++){
getQuestion(i);
}*/
getQuestion ( 13 );
}
}

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值