新闻爬虫及爬取结果查询网站的搭建（一）

最新推荐文章于 2024-04-18 01:04:54 发布

胡萝卜嫁接豆角

最新推荐文章于 2024-04-18 01:04:54 发布

阅读量854

点赞数

本文链接：https://blog.csdn.net/yc_hong/article/details/105853593

版权

新闻爬虫及爬取结果查询网站的搭建(一）

实验要求
- 核心需求
- 技术要求
爬虫准备工作

实验要求

核心需求

1、选取3-5个代表性的新闻网站（比如新浪新闻、网易新闻等，或者某个垂直领域权威性的网站比如经济领域的雪球财经、东方财富等，或者体育领域的腾讯体育、虎扑体育等等）建立爬虫，针对不同网站的新闻页面进行分析，爬取出编码、标题、作者、时间、关键词、摘要、内容、来源等结构化信息，存储在数据库中。
2、建立网站提供对爬取内容的分项全文搜索，给出所查关键词的时间热度分析。

技术要求

1、必须采用Node.JS实现网络爬虫
2、必须采用Node.JS实现查询网站后端，HTML+JS实现前端（尽量不要使用任何前后端框架）

爬虫准备工作

一共选了三个新闻网站进行爬虫，分别是中国财经网、雪球网、东方财富网，并且将爬取结果存储在postgresql中。
在本实验中，基于Node.js用Cheerio和Request实现了爬虫。下面将详细介绍基本环境搭配，各个爬虫的实现，功能实现过程等内容。

Node.js 安装配置

node.js官网：https://nodejs.org/zh-cn/
安装非常简单，顺着点一点就好了。

vscode

Visual Studio Code（以下简称vscode）是一个轻量且强大的跨平台开源代码编辑器（IDE），支持Windows，OS X和Linux。内置JavaScript、TypeScript和Node.js支持，而且拥有丰富的插件生态系统，可通过安装插件来支持C++、C#、Python、PHP等其他语言。
在本实验中，我使用的是vscode对node.js进行调试。
可以参考官网：https://code.visualstudio.com/

Request

Request也是一个Node.js的模块库，可以轻松地完成http请求。

安装
npm install request
基本使用方法：
在本实验中，主要是通过request来获取新闻页面。主要使用其默认的GET方法。

var request = require('request');
request('url', function (error, response, body) {
   
  if (!error && response.statusCode == 200) {
   
    console.log(body) // 请求成功的处理逻辑
  }
});

Cheerio简介

Cheerio介绍与安装
cheerio是jquery核心功能的一个快速灵活而又简洁的实现，主要是为了用在服务器端需要对DOM进行操作的地方。
cheerio官网: https://cheerio.js.org/.
也可以参考中文翻译：https://www.jianshu.com/p/629a81b4e013
安装：在项目目录下执行 npm install cheerio
主要功能
在本次实验中，主要用到的功能将在本节进行一个简单介绍。

解析HTML(load)
首先需要手动加载html文档，使用的方式如下，其他更多的加载方式可以参考官方文档
```
   var cheerio = require('cheerio'),
   $ = cheerio.load('<ul id = "fruits">...</ul>');
```
选择器（selecter)
cheerio选择器几乎和jQuery一模一样。选择器是文档遍历和操作的起点。如同在jQuery中一样，它是选择元素节点最重要的方法，但是在jQuery中选择器建立在CSS选择器标准库上。
在本实验中，主要用到了以下几种选择器方法。
选取页面中所有的超链接。首先获取页面中所有<a>标签，再遍历获取其href属性的值，具体的局部代码如下：
```
try {
     
        seedurl_news = $(
```

最低0.47元/天解锁文章

胡萝卜嫁接豆角

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
新闻爬虫及爬取结果查询网站的搭建（一）

新闻爬虫及爬取结果查询网站的搭建核心新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入核心你好！这是你第一次...
复制链接

扫一扫