nodejs 爬取前端面经并生成词云

最新推荐文章于 2024-05-27 17:13:19 发布

[Object object]

最新推荐文章于 2024-05-27 17:13:19 发布

阅读量3.2k

点赞数 5

分类专栏：爬虫 nodejs 文章标签：面经爬虫词云

本文链接：https://blog.csdn.net/zhang6223284/article/details/81263986

版权

前言

最近有 CVTE 的面试但是一直没有到我，昨天下午牛客网上 CVTE 前端的面经突然多了起来，大致看了一下，和自己之前整理的知识点差的不多，但是基本都问了 nodejs 的问题。正好之前的爬虫都没有做过词云，借着这个机会爬一下牛客网的前端面经，顺便生成词云，看看面试中哪些比较重要

准备工作

基本的步骤前面几篇爬虫都有了，不过还是重写写一下吧。

创建一个文件夹，我这里叫 spider
右键点击这个文件夹，有个 CMD 快速通道，点击打开 CMD
执行 npm init 命令，一路回车，最后 yes

运行完以后，会多出一个 package.json 的文件夹，里面放的是一些项目的信息
在 spider 文件夹下新建一个 index.js 文件用来写我们的代码。
创建一个 data 文件夹用于放我们所需要的数据
安装项目所需要的依赖包
npm istall cheerio --save 这个是用来提取 html 页面内容的
npm istall async --save 这个是用来异步并发爬虫的
npm istall node-gyp --save 这个用于编译原生C++扩展模块
npm istall nodejieba --save 这个是用来分词的
其中安装的时候有点小坑，需要有VC++库、python库，可以参考这篇文章 nodejieba安装记（Windows）

网页结构分析

基本的准备工作做完了，下面开始分析牛客网的网页，其实没什么难的，很容易分析出来我们需要的网页在这
这里写图片描述
即类名为 discuss-main 和 clearfix 下面的第一个 <a> 元素。代码如下

$('li .discuss-main.clearfix').each(function(){
   
    var title=$(this).children().first().text();     
    // 这里是为了根据关键词查询，如果标题有我们设置的关键词，再把链接放到数组中          
          if(title.indexOf(keyWord)>=0){ 
           var search=$(this).children().first().attr('href');
           let nextLink = "https://www.nowcoder.com" + search;
           urlList.push(nextLink);
    }
 })

接下来就是页面里面的实际内容，也很容易分析
这里写图片描述
即类名为 post-topic-des 下的文本
至此页面分析工作做完，接下来就是使用 nodejieba 模块来分词

分词生成词云

关于 nodejieba 的用法可以参考这篇文章使用 Node.js 对文本内容分词和关键词抽取
由于 const result = nodejieba.extract(data, 40); 得到的结果是对象，所以写入文件之前需要将其转换为 JSON 字符串，用 JSON.stringify(result)。然后对字符串进行处理
代码如下

function wordCluod(){
   
    fs.readFile('./data/word.txt', 'utf8', function(err, data){
   
        nodejieba.load({
            userDict: './user.utf8',
        });

最低0.47元/天解锁文章

[Object object]

关注

5
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
nodejs 爬取前端面经并生成词云

前言准备工作网页结构分析分词生成词云完整代码效果图github 地址前言最近有 CVTE 的面试但是一直没有到我，昨天下午牛客网上 CVTE 前端的面经突然多了起来，大致看了一下，和自己之前整理的知识点差的不多，但是基本都问了 nodejs 的问题。正好之前的爬虫都没有做过词云，借着这个机会爬一下牛客网的前端面经，顺便生成词云，看看面试中哪些比较重...
复制链接

扫一扫