网络舆情系统的开发

最新推荐文章于 2024-07-25 14:05:28 发布

yuqingjiankong

最新推荐文章于 2024-07-25 14:05:28 发布

阅读量5.2k

点赞数

分类专栏：系统开发应用程序文章标签：网络舆情监控系统网络爬虫网络

本文链接：https://blog.csdn.net/yuqingjiankong/article/details/37902141

版权

本文主要介绍了网络舆情系统开发中的网页爬取过程，利用HttpClient库实现对天涯论坛网页的抓取。通过GET和POST方法与服务器进行交互，获取网页内容。在示例中，展示了如何下载并打印网页的状态码和响应内容。HttpClient简化了HTTP协议的处理，使得开发者能更方便地访问网络资源。此外，还提到了如何处理不同HTTP状态码，以及如何向网页提交参数以查询特定信息。

摘要由CSDN通过智能技术生成

第一章爬取网页

这一章主要介绍如何爬取网页，在实际应用中，通常采用网络爬虫来快速抓取大量网页，存入本地硬盘内,开源的爬虫软件有很多，在开源中国中有详细的介绍，http://www.oschina.net/project/tag/64/spider。在这一版本的舆情监控系统中，暂时不采用这样庞大的爬虫，因为我们需要的信息量并不大，通过自己写的爬虫程序便可以抓取足够的网页信息，在这一章，我们将抓取以天涯论坛的网页，以这个抓取过程为例，编写爬虫软件，主要用到的技术是HttpClient技术和HtmlParser技术，主要的函数都封装在相应的jar包中，这些jar包都是开源的，可以在相关的网站下载到。本章的内容主要有两块，首先是学习如何下载网页并且保存到本地的磁盘中，然后学习如何连续抓取自己想要的网页，将在实践中学会抓取所需的网页，并且在本书的第二版将会介绍如何使用大型爬虫爬取网页。

1.1HttpClient

当来到程序和代码构建的世界，考虑问题的方式也要发生变化，对于一个网页可以很轻易的下载下来，这里指的是手工，但是对于成千上万的网页如何下载下来呢，思维比计算机和程序更加重要，因为你不断想着自动化的时候，不断思考如何用计算机代替手工劳动的时候，创造就会产生。当然，我们不会采用手工下载网页的办法，而是使用计算机程序代替我们的工作，所以你将要看到的是如何自动的下载网页。

在互联网中每一个ip地址都指向一台主机或是一台服务器，每一个url都代表了网络上的某一个资源，在互联网上，我们要遵守传输协议，正如在马路上要遵守基本的交通规则，HTTP（超文本传输协议）是我们必须要遵守的规则之一，这样才能够顺利的下载资源。

HttpClient是基于http协议开发的互联网交互程序，使用它可以进行资源的传输，可以进行通信。通常我们使用GET或者POST方法来进行通信，读取网页(HTTP/HTTPS)内容，下面是我们给出的一个简单的例子用来访问某个页面。

package book;

import java.io.IOException;

import org.apache.commons.httpclient.*;

import org.apache.commons.httpclient.methods.*;

/**

* 最简单的HTTP客户端,用来演示通过GET方式访问某个页面

* @author wangpeng

public class SimpleClient {

public static void main(String[] args) throws IOException {

HttpClient client = new HttpClient();