前沿
爬取项目中的中文核心思想在于通过脚本对项目文件进行遍历,通过文件名对文件进行筛选,读取筛选出的文件内容,查看文件内容中是否有符合的片段。
其实重点在于正则表达式的使用,如何巧妙的使用正则表达式来获取文件中复杂的中文内容。
Node
请安装node,下载项目后,执行node install安装相关依赖
项目源码地址:https://github.com/zhuyuzhu/getHanzi
执行命令爬取内容并生成Excel文件:node 脚本
查找HTML中的文字:
var fs = require("fs");
var path = require('path');
var xlsx = require('node-xlsx');
var regHtml = /\>((\s|\u3002|\uFF1F|\uFF01|\uFF0C|\u3001|\uFF1B|\uFF1A|\u300C|\u300D|\u300E|\u300F|\u2018|\u2019|\u201C|\u201D|\uFF08|\uFF09|\u3014|\u3015|\u3010|\u3011|\u2014|\u2026|\u2013|\uFF0E|\u300A|\u300B|\u3008|\u3009)*[\u4E00-\u9FA5]+(\s|\u3002|\uFF1F|\uFF01|\uFF0C|\u3001|\uFF1B|\uFF1A|\u300C|\u300D|\u300E|\u300F|\u2018|\u2019|\u201C|\u201D|\uFF08|\uFF09|\u3014|\u3015|\u3010|\u3011|\u2014|\u2026|\u2013|\uFF0E|\u300A|\u300B|\u3008|\u3009)*)+\</g; //匹配HTML中的中文片段
//中文符号的Unicode码
var ChineseSymbols = /(\s|\u3002|\uFF1F|\uFF01|\uFF0C|\u3001|\uFF1B|\uFF1A|\u300C|\u300D|\u300E|\u300F|\u2018|\u2019|\u201C|\u201D|\uFF08|\uFF09|\u3014|\u3015|\u3010|\u3011|\u2014|\u2026|\u2013|\uFF0E|\u300A|\u300B