前言
最近有 CVTE 的面试但是一直没有到我,昨天下午牛客网上 CVTE 前端的面经突然多了起来,大致看了一下,和自己之前整理的知识点差的不多,但是基本都问了 nodejs 的问题。正好之前的爬虫都没有做过词云,借着这个机会爬一下牛客网的前端面经,顺便生成词云,看看面试中哪些比较重要
准备工作
基本的步骤前面几篇爬虫都有了,不过还是重写写一下吧。
- 创建一个文件夹,我这里叫 spider
- 右键点击这个文件夹,有个 CMD 快速通道,点击打开 CMD
- 执行
npm init
命令,一路回车,最后 yes
运行完以后,会多出一个 package.json 的文件夹,里面放的是一些项目的信息 - 在 spider 文件夹下新建一个 index.js 文件用来写我们的代码。
- 创建一个 data 文件夹用于放我们所需要的数据
- 安装项目所需要的依赖包
npm istall cheerio --save
这个是用来提取 html 页面内容的
npm istall async --save
这个是用来异步并发爬虫的
npm istall node-gyp --save
这个用于编译原生C++扩展模块
npm istall nodejieba --save
这个是用来分词的
其中安装的时候有点小坑,需要有VC++库、python库,可以参考这篇文章 nodejieba安装记(Windows)
网页结构分析
基本的准备工作做完了,下面开始分析牛客网的网页,其实没什么难的,很容易分析出来我们需要的网页在这
即类名为 discuss-main
和 clearfix
下面的第一个 <a>
元素。代码如下
$('li .discuss-main.clearfix').each(function(){
var title=$(this).children().first().text();
// 这里是为了根据关键词查询,如果标题有我们设置的关键词,再把链接放到数组中
if(title.indexOf(keyWord)>=0){
var search=$(this).children().first().attr('href');
let nextLink = "https://www.nowcoder.com" + search;
urlList.push(nextLink);
}
})
接下来就是页面里面的实际内容,也很容易分析
即类名为 post-topic-des
下的文本
至此页面分析工作做完,接下来就是使用 nodejieba 模块来分词
分词生成词云
关于 nodejieba 的用法可以参考这篇文章 使用 Node.js 对文本内容分词和关键词抽取
由于 const result = nodejieba.extract(data, 40);
得到的结果是对象,所以写入文件之前需要将其转换为 JSON 字符串,用 JSON.stringify(result)
。然后对字符串进行处理
代码如下
function wordCluod(){
fs.readFile('./data/word.txt', 'utf8', function(err, data){
nodejieba.load({
userDict: './user.utf8',
});