想做个博客网站练练手,数据就打算用node爬下来,存入数据库待使用,就爬CSDN博客吧。(站主勿怪~)
首先做准备工作:
1、下载请求插件request(用node内置的http模块、SuperAgent、axios或ajax都可以);
2、下载jquery;
3、单纯用jquery是获取不到标签的,因为这是在控制台输出的,jquery只能获取到浏览器标签。于是下载JSDOM模拟浏览器(也可以用PhantomJS);
4、下载mysql。
代码如下:npm install request jquery jsdom mysql
准备工作2:
1、引入模块:
const request = require('request')
const mysql = require('mysql')
const jsdom = require('jsdom')
const {JSDOM} = jsdom
2、创建数据库连接池:
const db = mysql.createPool({
host: 'IP',
user: '用户名',
password: '密码',
database: '数据库名'
})
正式爬虫:
1、请求页面,实例化JSDOM对象
request.get('https://www.csdn.net/', (err, res) => {
if (err) {
throw err