Node.js + puppeteer爬取推特ChineseVirus評論(1)

說到網絡爬蟲,大家第一時間想到的可能是python,但其實Node.js也十分適合用來爬蟲。爬蟲通常涉及大量請求,像推特這種由js/ajax动态生成的網頁更是必須等待數據加載完成才能進行爬取。Node.js的單線,非阻塞I/O機制使它在等待請求與渲染時不會被阻塞,大大提高速度。

Puppeteer

Puppeteer 是 Node.js 的函式庫,它提供各種 API 來控制 Chrome 或 Chromium 瀏覽器,而此瀏覽器也是目前主流的瀏覽器,用來做為測試、爬蟲都相當合適,並且所提供的 API 語法淺顯易懂。這次我就用到爬蟲相關幾個方法,其他使用方法可以到puppeteer查看。

準備

  • 在初始化Node.js後先安裝相關的包
npm install Puppeteer
  • 創建twitter.js,我們會在裡面封裝好方法,然後在index.js調用

在这里插入图片描述

  • 創建index.js并引入
const puppeteer = require('puppeteer');
const fs = require('fs');
const twitter = require('./twitter');//自己封裝的方法

用puppeteer打開一個瀏覽器

	initialize : async () => {
   
		browser = await puppeteer.launch({
   
			//如果為true則只在後台運行
			headless : false, 
			defaultViewport
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值