爬取项目中的中文

最新推荐文章于 2023-08-11 17:40:20 发布

叨唠

最新推荐文章于 2023-08-11 17:40:20 发布

阅读量532

点赞数 2

分类专栏：前端web 文章标签：爬取中文文字爬取项目中的汉字

本文链接：https://blog.csdn.net/zyz00000000/article/details/114012727

版权

该项目演示了如何使用Node.js和正则表达式从HTML和JS文件中提取中文内容。首先，遍历指定目录下的HTML文件，通过正则表达式匹配中文字符和符号，然后将内容存入数组并导出为Excel。接着，对JS和JSP文件进行相同的操作，但使用不同的正则表达式以匹配不同类型的中文内容。最终生成的Excel文件包含了所有找到的中文片段。

摘要由CSDN通过智能技术生成

前沿

爬取项目中的中文核心思想在于通过脚本对项目文件进行遍历，通过文件名对文件进行筛选，读取筛选出的文件内容，查看文件内容中是否有符合的片段。

其实重点在于正则表达式的使用，如何巧妙的使用正则表达式来获取文件中复杂的中文内容。

Node

请安装node，下载项目后，执行node install安装相关依赖

项目源码地址：https://github.com/zhuyuzhu/getHanzi

执行命令爬取内容并生成Excel文件：node 脚本

查找HTML中的文字：

var fs = require("fs");
var path = require('path');
var xlsx = require('node-xlsx');
var regHtml = /\>((\s|\u3002|\uFF1F|\uFF01|\uFF0C|\u3001|\uFF1B|\uFF1A|\u300C|\u300D|\u300E|\u300F|\u2018|\u2019|\u201C|\u201D|\uFF08|\uFF09|\u3014|\u3015|\u3010|\u3011|\u2014|\u2026|\u2013|\uFF0E|\u300A|\u300B|\u3008|\u3009)*[\u4E00-\u9FA5]+(\s|\u3002|\uFF1F|\uFF01|\uFF0C|\u3001|\uFF1B|\uFF1A|\u300C|\u300D|\u300E|\u300F|\u2018|\u2019|\u201C|\u201D|\uFF08|\uFF09|\u3014|\u3015|\u3010|\u3011|\u2014|\u2026|\u2013|\uFF0E|\u300A|\u300B|\u3008|\u3009)*)+\</g; //匹配HTML中的中文片段

//中文符号的Unicode码
var ChineseSymbols = /(\s|\u3002|\uFF1F|\uFF01|\uFF0C|\u3001|\uFF1B|\uFF1A|\u300C|\u300D|\u300E|\u300F|\u2018|\u2019|\u201C|\u201D|\uFF08|\uFF09|\u3014|\u3015|\u3010|\u3011|\u2014|\u2026|\u2013|\uFF0E|\u300A|\u300B