Python 使用正则表达式提取字符串中的 URL

Allureye

于 2023-10-11 12:31:54 发布

阅读量1.6k

点赞数

分类专栏： Python 文章标签： python 正则表达式 mysql

本文链接：https://blog.csdn.net/weixin_65520839/article/details/133756982

版权

Python 专栏收录该内容

37 篇文章 1 订阅

订阅专栏

给定一个字符串，里面包含 URL 地址，需要我们使用正则表达式来获取字符串的 URL。

import re 
  
def Find(string): 
    # findall() 查找匹配正则表达式的字符串
    url = re.findall('https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+', string)
    return url 
      
 
string = 'Runoob 的网页地址为：https://www.runoob.com，Google 的网页地址为：https://www.google.com'
print("Urls: ", Find(string))

这段代码使用Python中的re模块来查找输入字符串中的所有URL（统一资源定位符）。下面是对代码的详细解释：

导入re模块：
```
import re
```
这行代码导入了Python的正则表达式模块re，它允许我们进行正则表达式的匹配和查找操作。
定义Find函数：
```
def Find(string):
```
这是一个自定义的函数Find，该函数接受一个字符串string作为输入参数。
使用正则表达式查找URL：
```
url = re.findall('https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+', string)
```
这行代码使用re.findall()函数来查找输入字符串string中的所有匹配正则表达式的URL。
- https?：这是一个正则表达式模式，表示匹配以http或https开头的字符串。s?中的?表示前面的字符s是可选的，所以它可以匹配http或https。
- ://：这是匹配URL中的冒号和两个正斜杠的字面字符。
- (?: ... )：这是非捕获组的语法，用于将多个字符组合在一起，但不捕获匹配的内容。在这里，它用于将后面的字符组合在一起以匹配URL中的域名和路径部分。
- [-\w.]：这是一个字符集，匹配URL中的字母、数字、连字符（减号）和句点。
- |(?:%[\da-fA-F]{2})：这部分表示匹配URL中的百分号编码的特殊字符。例如，%20代表空格字符。
- +：表示匹配前面的模式（整个URL部分）一次或多次，以匹配完整的URL。
返回找到的URL列表：
```
return url
```
函数返回一个包含所有匹配的URL的列表。

定义输入字符串：

string = 'Runoob 的网页地址为：https://www.runoob.com，Google 的网页地址为：https://www.google.com'

这行代码定义了一个包含文本的字符串，其中包含两个URL。

调用Find函数并打印结果：
```
print("Urls: ", Find(string))
```
这行代码调用Find函数，并将其结果打印出来。结果是一个包含匹配到的URL的列表。

所以，当你运行这段代码时，它会输出如下内容：

Urls:  ['https://www.runoob.com', 'https://www.google.com']

这里的输出是找到的两个URL：https://www.runoob.com 和 https://www.google.com。

Allureye

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
Python 使用正则表达式提取字符串中的 URL

...
复制链接

扫一扫

专栏目录