JavaScript(ES6标准)处理占多个字节的汉字

写这篇文章的动机是看到了这篇博客:CVTE前端开发在线笔试-2017.9.14

其中一个题目是写一个截取子串的函数subStr(str,len),如果串中有汉字,则汉字长度按2计算。假设str为‘我ABC汗DEF’,当len为4时应输出‘我AB’,当len为6时输出‘我ABC’

我们都知道JS支持Unicode编码,答案中判断中文的方式是,遍历字符串,用str[i]获取字符,用正则表达式(如下)检验字符。

 /[^\u4E00-\u9FA5]/

这个正则的含义是匹配不在这个范围内的中文字符,如果是汉字,返回false,如果不是汉字,返回true。

因为Unicode编码中 4E00-9FA5 表示的是20902个基本汉字,所以一般情况下,上面的方法是不会出错的,能够正确识别到字符串中的汉字。

当然特殊情况下就会出现问题了。

我来引出今天的主角 ‘?’,首先我们得确定的是,它是一个汉字。点这里可以看对它的解释。

'?’的Unicode编码是 \u20BB7,这意味着,上面的正则表达式并不能检测出这个汉字:

const re =  /[^\u4E00-\u9FA5]/
console.log(re.test(&
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值