TypeScript创建爬虫，爬取网站数据-01

最新推荐文章于 2023-10-20 10:29:51 发布

VIP文章姜香小白鱼

最新推荐文章于 2023-10-20 10:29:51 发布

阅读量214

点赞数

分类专栏： TypeScript爬取网站数据文章标签： typescript 爬虫 javascript 前端学习

本文链接：https://blog.csdn.net/weixin_46426412/article/details/130290194

版权

第三章使用 TypeScript 编写爬虫工具

需要爬取的官网 前端课程小站
 爬取88影视网

爬去官网的项目名称和当前课程学习人数

1. 构建 TypeScript文件目录项目

1. npm init -y。项目中新增package.json文件
2. tsc --init。项目中新增tsconfig.json文件
3. npm uninstall ts-node -g 全局卸载ts-node
4. cnpm install -D ts-node 在本地项目中配置ts-node

5. 新建src目录，创建crowller.ts。 console.log(‘项目初始化完毕’)
6. 修改package.json配置，使用 npm run dev 启动
"scripts": { "dev": "ts-node ./src/crowller.ts" },
7. npm install typescript -D 本地安装typescript

构建完成后的 package.json文件

{
  "name": "typescript",
  "version": "1.0.0",
  "description": "",
  "main": "index.js",
  "scripts": {
    "dev": "ts-node ./src/crowller.ts"
  },
  "keywords": [],
  "author": "",
  "license": "ISC",
  "devDependencies": {
    "ts-node": "^10.9.1",
    "typescript": "^5.0.4"
  }
}

控制台终端 npm run dev
请添加图片描述

2. 爬取网址html上的数据内容

1. 通过 superagent 这个工具获取网址上面，html的内容
2. js库ts无法直接读取 cnpm install superagent–save
3. ts使用翻译文件 @types/引入js库 cnpm install @types/superagent -D

/**
 * 创建一个 名称为Crowller的类
 * 访问类型
 * public    允许 在类的内外被调用
 * private   允许 在类内部被使用，不允许类外部使用
 * protected 允许 在类内及 继承的子类中被使用，不允许类外使用
 * ts 无法直接引用 js库 ，需要一个.d.ts的翻译文件,才可以引入 js库
 */


/* 通过 superagent 这个工具 获取网址上面，html的内容
   js库ts无法直接读取 cnpm install superagent--save  
   ts使用翻译文件 @types/引入js库  cnpm install @type