去除html格式，获取文本

最新推荐文章于 2021-07-15 21:47:00 发布

置顶无名小卒QWQ

最新推荐文章于 2021-07-15 21:47:00 发布

阅读量1.1k

点赞数

分类专栏： java方法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wumingxiaozei/article/details/84949702

版权

java方法专栏收录该内容

19 篇文章 0 订阅

订阅专栏

/**
* 去掉所有的HTML,获取其中的文本信息
* @param htmlText
* @return
*/
public static String GetHtmlText(String htmlText)
{
String regEx_html = "<[^>]+>"; // 定义HTML标签的正则表达式
Pattern p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);
Matcher m_html = p_html.matcher(htmlText);
htmlText = m_html.replaceAll(""); // 过滤HTML标签
return htmlText;
}

/**
* 获取HTML文件里面的IMG标签的SRC地址
* @param htmlText 带html格式的文本
*/
public static List<String> GetHtmlImageSrcList(String htmlText)
{
List<String> imgSrc = new ArrayList<String>();
Matcher m = Pattern.compile("src=\"?(.*?)(\"|>|\\s+)").matcher(htmlText);
while(m.find())
{
imgSrc.add(m.group(1));
}
return imgSrc;
}

无名小卒QWQ

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

无名小卒QWQ CSDN认证博客专家 CSDN认证企业博客

码龄7年

44: 原创

6万+: 周排名

33万+: 总排名

36万+: 访问

: 等级

1090: 积分

731: 粉丝

104: 获赞

42: 评论

406: 收藏

私信

关注

分类专栏

最新评论

JDK安装教程
无名小卒QWQ: java -version 正常就行
JDK安装教程
m0_65888018: CLASSPATH一定要配置吗，我没配置CLASSPATH之前java -version显示正常，但是javac显示不是内部命令，然后配置完CLASSPATH之后其他正常，javac还是显示不是内部命令
JDK安装教程
吴科宁: 我还没配环境变量呢。在cmd里一样可以看版本一样输出Java。由此可见配不配都一样。只是以后翻Javac时候麻烦一点而已。
JDK安装教程
无名小卒QWQ: 谢谢提醒，我及时更新一下
JDK安装教程
立夏: 官网页面不一样，找不到下载历史版本的地方

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。