网络舆情系统的开发

本文主要介绍了网络舆情系统开发中的网页爬取过程,利用HttpClient库实现对天涯论坛网页的抓取。通过GET和POST方法与服务器进行交互,获取网页内容。在示例中,展示了如何下载并打印网页的状态码和响应内容。HttpClient简化了HTTP协议的处理,使得开发者能更方便地访问网络资源。此外,还提到了如何处理不同HTTP状态码,以及如何向网页提交参数以查询特定信息。
摘要由CSDN通过智能技术生成

第一章 爬取网页

    这一章主要介绍如何爬取网页,在实际应用中,通常采用网络爬虫来快速抓取大量网页,存入本地硬盘内,开源的爬虫软件有很多,在开源中国中有详细的介绍,http://www.oschina.net/project/tag/64/spider。在这一版本的舆情监控系统中,暂时不采用这样庞大的爬虫,因为我们需要的信息量并不大,通过自己写的爬虫程序便可以抓取足够的网页信息,在这一章,我们将抓取以天涯论坛的网页,以这个抓取过程为例,编写爬虫软件,主要用到的技术是HttpClient技术和HtmlParser技术,主要的函数都封装在相应的jar包中,这些jar包都是开源的,可以在相关的网站下载到。本章的内容主要有两块,首先是学习如何下载网页并且保存到本地的磁盘中,然后学习如何连续抓取自己想要的网页,将在实践中学会抓取所需的网页,并且在本书的第二版将会介绍如何使用大型爬虫爬取网页。

1.1HttpClient

当来到程序和代码构建的世界,考虑问题的方式也要发生变化,对于一个网页可以很轻易的下载下来,这里指的是手工,但是对于成千上万的网页如何下载下来呢,思维比计算机和程序更加重要,因为你不断想着自动化的时候,不断思考如何用计算机代替手工劳动的时候,创造就会产生。当然,我们不会采用手工下载网页的办法,而是使用计算机程序代替我们的工作,所以你将要看到的是如何自动的下载网页。

在互联网中每一个ip地址都指向一台主机或是一台服务器,每一个url都代表了网络上的某一个资源,在互联网上,我们要遵守传输协议,正如在马路上要遵守基本的交通规则,HTTP(超文本传输协议)是我们必须要遵守的规则之一,这样才能够顺利的下载资源。

HttpClient是基于http协议开发的互联网交互程序,使用它可以进行资源的传输,可以进行通信。通常我们使用GET或者POST方法来进行通信,读取网页(HTTP/HTTPS)内容 ,下面是我们给出的一个简单的例子用来访问某个页面。 

package book;

 

import java.io.IOException;

import org.apache.commons.httpclient.*;

import org.apache.commons.httpclient.methods.*;

 

/**

 * 最简单的HTTP客户端,用来演示通过GET方式访问某个页面

 * @author wangpeng

 */

public class SimpleClient {

public static void main(String[] argsthrows IOException {

HttpClient client = new HttpClient();

// 使用GET方法

HttpMethod method = new GetMethod("http://bbs.tianya.cn/list-456-1.shtml");

client.executeMethod(method);

// 打印服务器返回的状态

System.out.println(method.getStatusLine());

// 打印返回的信息

<
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值