C#使用正则表达式解析超链接文本和地址

最新推荐文章于 2021-02-27 16:32:59 发布

xdonx

最新推荐文章于 2021-02-27 16:32:59 发布

阅读量3.3k

点赞数 1

分类专栏： HTML/表达式

本文链接：https://blog.csdn.net/xdonx/article/details/9840271

版权

HTML/表达式专栏收录该内容

6 篇文章 0 订阅

订阅专栏

表达式1，获取href地址：

(?is)<a[^>]*?href=(['""\s]?)(?<href>[^'""\s]*)\1[^>]*?>

c#代码：

	Regex reg = new Regex(@"(?is)<a[^>]*?href=(['""\s]?)(?<href>[^'""\s]*)\1[^>]*?>"); 
            MatchCollection match = reg.Matches(textBox1.Text); 
            foreach (Match m in match) 
            { 
                   textBox2.Text += m.Groups["href"].Value;
            }

表达式2，可获取文本和地址：

<a.*?(?: |\t|\r|\n)?href=[\'"]?(.+?)[\'"]?(?:(?: |\t|\r|\n)+.*?)?>(.+?)<\/a.*?>

有时<a></a>中间还有<img>,可以参考以下代码去除：

string html = 要匹配的字符串;
Regex reg = new Regex(@"<a\s*[^>]*>([\s\S]+?)</a>", RegexOptions.IgnoreCase);
Match m = reg.Match(html);
while(m.IsSuccess)
{
string innerHTML = m.Result("$1");// 得到正则的括号里的内容，就是a的innerHTML
innerHTML = Regex.Replace(innerHTML, @"<[^>]*>", "",RegexOptions.IgnoreCase);// 替换掉里面的html，只保留文字 
m = m.NextResult;// 循环匹配html里的下一个结果
}

另外还搜到一个表达式，测试了一下好像没用，留着参考：

Regex reg = new Regex(@"(?is)<a(?:(?!href=).)*href=(['""]?)(?<url>[^""\s>]*)\1[^>]*>(?<text>(?:(?!</?a\b).)*)</a>");
MatchCollection mc = reg.Matches(str);
foreach (Match m in mc)
{
  TextBox1.Text += m.Groups["url"].Value + "\n";   
  richTextBox2.Text += m.Groups["text"].Value + "\n";   
 }

xdonx

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
C#使用正则表达式解析超链接文本和地址

表达式1，获取href地址：(?is)]*?href=(['""\s]?)(?[^'""\s]*)\1[^>]*?> c#代码： Regex reg = new Regex(@"(?is)]*?href=(['""\s]?)(?[^'""\s]*)\1[^>]*?>"); MatchCollection match = reg.Matches
复制链接

扫一扫