写这篇文章的动机是看到了这篇博客:CVTE前端开发在线笔试-2017.9.14
其中一个题目是写一个截取子串的函数subStr(str,len),如果串中有汉字,则汉字长度按2计算。假设str为‘我ABC汗DEF’,当len为4时应输出‘我AB’,当len为6时输出‘我ABC’
我们都知道JS支持Unicode编码,答案中判断中文的方式是,遍历字符串,用str[i]获取字符,用正则表达式(如下)检验字符。
/[^\u4E00-\u9FA5]/
这个正则的含义是匹配不在这个范围内的中文字符,如果是汉字,返回false,如果不是汉字,返回true。
因为Unicode编码中 4E00-9FA5 表示的是20902个基本汉字,所以一般情况下,上面的方法是不会出错的,能够正确识别到字符串中的汉字。
当然特殊情况下就会出现问题了。
我来引出今天的主角 ‘?’,首先我们得确定的是,它是一个汉字。点这里可以看对它的解释。
'?’的Unicode编码是 \u20BB7,这意味着,上面的正则表达式并不能检测出这个汉字:
const re = /[^\u4E00-\u9FA5]/
console.log(re.test(&