新闻爬虫及查询网站的实现（一）：爬虫基本框架的实现

最新推荐文章于 2024-04-01 13:09:33 发布

Breaddsmall

最新推荐文章于 2024-04-01 13:09:33 发布

阅读量293

点赞数

分类专栏： Web编程

本文链接：https://blog.csdn.net/weixin_46817778/article/details/116234451

版权

本文介绍了使用Nodejs和Cheerio实现新闻爬虫的基础框架，包括封装请求、面向对象的设计思路，以及爬取、解析网页内容的流程。通过这个框架，计划爬取至少100条包含标题、内容和时间的数据，存储在数据库，并实现前端搜索和时间热度分析功能。

摘要由CSDN通过智能技术生成

上文：
新闻爬虫及查询网站的实现（〇）：实验任务与内容介绍

1. 实验内容

完成最少一个目标网站的分析和爬虫设计；
爬取不少于100条数据（每条数据包括最少3个字段，标题、内容和时间），并存储在数据库中；
完成对数据库中爬取数据内容或标题的搜索功能，搜索结果以表格形式展示在前端页面中；
完成对搜索内容的时间热度分析。

2. 实验任务

爬取数据：
1. 利用Nodejs，实现爬虫的基本通用框架；
2. 利用正则表达式，对要爬取的网站进行解析；
3. 得到结构化的数据。
数据库交互。
新闻检索。
前端设计。

3. 实验步骤

1. 爬取数据

爬虫基本框架的实现

在这里，爬虫的实现采用了Nodejs的Cheerio模块。

引入需要的模块：

// 引入需要的模块
var fs = require('fs');
var myRequest = require('request');
var myCheerio = require('cheerio');
var myIconv = require('iconv-lite');
require('date-utils');
var db = ('db.js');  // 封装好的数据库的相关操作

首先，对request进行封装。

function request(url, callback) {
 var options = {
     url: url,
     encoding: null,
     //proxy: 'http://x.x.x.x:8080',
     headers: headers,
     timeout: 10000 //
 }
 myRequest(options, callback)
}

其中，headers是给请求设置的报头，用于防止网站屏蔽爬虫。

var headers = {
 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.65 Safari/537.36'
 }

由于要在多个网站进行爬虫，所以我想用面向对象的方式来写代码，利用一个