Python获取文本链接

码农强仔

已于 2024-03-15 20:26:08 修改

阅读量549

点赞数 6

文章标签： python

于 2023-12-01 20:46:10 首次发布

本文链接：https://blog.csdn.net/weixin_50064049/article/details/134743545

版权

在 Python 中可以使用内置库urllib来识别文本中的链接，如下是使用urllib获取文本中的链接的具体步骤：

导入必要的库。
定义提取链接的任务处理函数，参数为包含链接的文本信息。
将文本按空格分割成单词列表。
遍历单词列表使用urlparse函数提取当前单词中的链接，检查提取到的链接是否具有合法的网络协议和域名，当检测通过时，将其添加到链接列表。
打印提取到的链接。
如下是代码示例：
、、、python
from urllib.parse import urlparse

def extract_links(text):
# 将文本按空格分割成单词列表
words = text.split()
# 提取链接
links = []
for word in words:
parsed_url = urlparse(word)
if parsed_url.scheme and parsed_url.netloc:
links.append(word)
# 返回链接列表
if len(links) > 0:
print(“提取到的链接:”)
for link in links:
# 打印提取到的链接
print(link)
else:
print(“未找到链接”)

text = “这是一段包含链接的文本，例如 https://www.example.com 和 http://example.org。”
extract_links(text)
、、、
上述代码通过extract_links函数实现获取文本中的链接的功能，函数接受一个包含链接的文本信息text作为参数，在函数内部通过urllib提取每个单词中的合法链接。注意：urllib只能识别带有有效网络协议和域名的链接，如果你的文本中存在其他格式的链接，或者链接没有带有网络协议，则可能需要更换其他的识别方式。