java提取富文本中的中文,文本

当遇到这个需求的时候第一反应就是使用正则的!进行非匹配筛选,看了一些别人写的,表示看不懂。。。
然后有点投机取巧的意思可以把不要的匹配出来然后在替换掉

提取文本

思路:去掉所有标签


	/**
     * 正则预编译
     */
    private static final Pattern pattern = Pattern.compile("(<.+?>)|(</.+?>)");
       
	/**
     * @Description: 去掉富文本标签
     * @param content 富文本
     * @Author: zlh
     * @Date: 2020/7/10 10:06
     * @Return java.lang.String
     */
    public String dealContent(String content){
       // 匹配标签
        Matcher matcher = pattern.matcher(content);
        while (matcher.find()){
            // 替换图片
            content= matcher.replaceAll("").replace(" ", "");
        }

        return content;
    }

提取中文

思路:匹配中文


	/**
     * 正则预编译
     */
   private static final Pattern pattern = Pattern.compile("([\\u4e00-\\u9fa5]+)");

	public static String getZh(String str) {
	        String zh = "";
	
	        Matcher matcher = Pattern.compile(regx).matcher(str);
	        while (matcher.find()) {
	            zh += match.group(0)
	        }
	        return zh;
    }
  • 这个只是匹配中文如果你的标签中含有中文也会匹配,文本中含有数组,字符不会匹配。
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值