Java中split函数分割中英文的一些问题

    最近在使用split函数处理.txt文档,将其按句子划分为小的单元。遇到的一个问题是一些标点符号诸如?、!等无法作为split函数的参数,看到不少介绍如何处理?有提到过先使用replace函数预处理后在使用split函数,感觉这样会大大大大降低效率。最终想到这些符号之所以无法使用是由于它们需要转义,也即是讲它们存在着歧义。所以就尝试了转义。如下图所示

之后就可以顺利地对文章按自己的要求处理了。


split函数的一些特殊注意可以参考http://hi.baidu.com/mwm2007/item/3fe9d3783ca2dd3f72442391


PS:split函数分隔符多个的话,另一种表达方式:String [] substrs = str.split("[。?!?.!]");

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值