在实现Node.js获取数据之前,先要了解什么是爬虫。
什么是爬虫
使用数据请求一段内容,然后将这段内容做数据清洗,最后在通过后端服务器发送到前台页面。
安装cheerio依赖包
安装命令是:npm install cheerio。
cheerio的功能是用来操作dom元素的,可以将request返回来的数据转换成可供dom操作的数据。
引入并使用
本文中,我们将要以京东的导航栏为例。
首先进入谷歌浏览器,右键选择“检测”,然后选择“Network”,就可以得到请求数据的网址:https://www.jd.com/。
数据请求使用get(),第一个参数位请求数据的地址,第二个参数为回调函数。
添加错误事件并把具体输出
头部请求
最后我们建立一个静态服务器
在终端中输入 node jd.js 再进入http://localhost:8000 这样我们完成了对导航栏数据的获取。