python3-正则表达式(re)之获取网页全部url

最新推荐文章于 2025-02-20 16:14:04 发布

车陂IT仔

最新推荐文章于 2025-02-20 16:14:04 发布

阅读量1.2w

点赞数 6

分类专栏： python

本文链接：https://blog.csdn.net/weixin_44065501/article/details/89346178

版权

python 专栏收录该内容

18 篇文章

订阅专栏

本文介绍了一种使用Python爬虫技术抓取网站所有URL的方法，以搜狗微信搜索为例，展示了如何利用正则表达式匹配并提取网页中的链接。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

有时候,我们需要获取网站的全部url,用作于其他测试

以sogoWeChat为例：

import re
import urllib.request

response = urllib.request.urlopen("https://weixin.sogou.com/")
html = response.read()
tag = re.findall(r'<a href="([a-zA-z]+://[^\s]*)"', str(html))
print(tag)

返回结果

推荐一个正则表达式在线验证网站：http://tool.oschina.net/regex/#

完美

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

车陂IT仔

关注关注

6
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python编程实例-正则表达式在数据清洗中的使用技巧

视觉与物联智能

09-12

579

如果你是一名Linux或Mac用户，你可能已经在命令行中使用过grep通过匹配模式来搜索文件。正则表达式（regex）允许你根据模式搜索、匹配和操作文本。这使得它们成为文本处理和数据清洗的强大工具。

python爬取网站链接_Python3 实现爬取网站下所有URL方式

weixin_39940770的博客

12-10

943

获取首页元素信息：目标 test_URL：http://www.xxx.com.cn/首先检查元素，a 标签下是我们需要爬取得链接，通过获取链接路径，定位出我们需要的信息soup = Bs4(reaponse.text, "lxml")urls_li = soup.select("#mainmenu_top > div > div > ul > li")首页的URL链接获取...

参与评论您还未登录，请先登录后发表或查看评论

python re正则匹配网页中图片url地址

最新发布

2401_88805485的博客

02-20

991

通过Python和正则表达式，我们可以轻松实现从网页中爬取URL数据。正则表达式提供了强大的文本匹配能力，而Python的requests库和re模块则为爬虫开发提供了便利。在实际应用中，需要注意遵守法律法规和网站规则，合理控制爬虫行为，以确保数据抓取的合法性和高效性。通过不断优化和扩展，爬虫程序可以适应各种复杂的场景，为数据分析、内容聚合等任务提供强大的支持。如遇任何疑问或有进一步的需求，请随时与我私信或者评论联系。

python爬虫-scrapy基于CrawlSpider类的全站数据爬取

m0_46500590的博客

02-19

737

文章目录一、CrawlSpider类介绍1.1 引入1.2 介绍和使用介绍使用二、案例：古诗文网全站数据爬取一、CrawlSpider类介绍 1.1 引入使用scrapy框架进行全站数据爬取可以基于Spider类，也可以使用接下来用到的CrawlSpider类。基于Spider类的全站数据爬取之前举过栗子，感兴趣的可以康康 scrapy基于Spider类的全站数据爬取 scrapy基于CrawlSpider类的全站数据爬取 1.2 介绍和使用介绍 CrawlSpider是Spider的一个子类，因

python3 爬虫全站_Python3简单获取封尘网全站文章URL地址

weixin_29064103的博客

12-23

223

记得很早以前用过火车头网页抓取工具，当时觉得非常牛B，这个工具可以说是推动了国内互联网的快速发展。只有经历过的才知道；当然那也是大叔级的人了，现在都流行使用Python开发爬虫。目前可以说很多公司处理数据都会用到。所以也顺着方向学了一下爬虫，本来是看到爬妹子图的教学，但是那网站做了些反爬机制，目前功夫浅啊；只能用自己的博客研究一下。本次使用环境：Ubuntu:16.04Python:3.5.2要用...

Re 正则提取字符串中所有的链接

从零开始学习python --zeropython

11-30

1440

提取规则如下根据URL的规则，设计一段正则表达式，提取出一段文本中的所有网址 Python import <span class="wp_keywordlink_affiliate"><a href="https://www.168seo...

Python笔记-使用requests获取网页数据及re中用正则表达式获取指定数据

12-22

import re import requests class HandleLaGou(object): def __init__(self): self.laGou_session = requests.session() self.header = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0) ...

解析网页--正则表达式--python爬虫知识点4

weixin_43761516的博客

04-28

1150

正则表达式 爬虫要求不高，如果你写的表达式很复杂就说明该网站并不适合用正则来处理掌握基础一、正则表达式的简介概念 正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑特殊符号组合在一起的一个字符串，对你预知的一个字符串做一个验证，验证字符串的“机器、锁” 逻辑就是对事物观察分析后的结果应用场景爬虫表达验证(例如 : 手机号、邮箱、身份证… ) 登入网站app的时候填入

Python3 【正则表达式】：经典示例参考手册

ROGERLEE- Python场景式编程学习与训练

01-25

1045

15 个正则表达式经典学习案例

Python每日一练(15)-通过正则表达式快速获取电影的下载地址

12-21

在Python编程中，正则表达式（Regular Expression）是一种强大的文本处理工具，它能帮助我们高效地处理字符串，尤其在爬虫项目中，用于提取网页中的特定信息，如电影的下载地址。本篇将深入探讨如何利用Python的正则...

Python实战：使用re正则库匹配url中的id信息

彭世瑜的博客

10-17

1704

我们单独给这个功能写一个函数，以便代码复用，不仅代码复用，同时也能增强代码美观。url 中有一个id信息，需要从url中匹配出来。

python的re模块使用：获取URL中可用的部分

qq_41663245的博客

03-26

3795

URL字符串: https://www.google.com.hk/search?newwindow=1&safe=strict&biw=1920&bih=949 http://www.google.com.hk/search?newwindow=1&safe=strict&biw=1920&bih=949目标：获取...

python正则

浮生醉清风

12-13

305

title: 正则表达式之python系列 tags: [正则表达式] 正则表达式的定义 正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。 10000 ~ 12数字组合 09876536 长度是否是0开头 正则表达式是对字符串（包括普通字符（例如，a 到 z 之间的字母）...

Python3 爬虫-提取请求页面所有的真实url-BeautifulSoup

weixin_39568072的博客

06-28

1830

在 HTML中 <a href='xx'> 表示超链接，所以要是提取页面 url 的话就是提取 ‘xx’ 方法一：find_all import urllib import requests from urllib.parse import urlparse from urllib import request, parse from bs4 import BeautifulSoup word = '周杰伦' # word为关键词，pn是百度用来分页的.. url = 'http://.

Python3 简单抓取网站url

u010829149的专栏

11-11

2892

1、第一步简单的抓取一个图书下载网站，输出书名、下载url地址。 import urllib3 import re import os from pyquery import PyQuery as pqweburl = 'http://www.ireadweek.com'if __name__ == "__main__": http = urllib3.PoolManager() r

Python3.x网页抓取HTMLParser

weixin_33829657的博客

07-04

145

2019独角兽企业重金招聘Python工程师标准>>> ...

Python正则表达式编程】- 提取文本中的URL

HackWhisper的博客

10-03

624

在Python编程中，正则表达式是一种强大的工具，用于在文本中匹配、搜索和提取特定模式的内容。通过定义适当的正则表达式模式，我们可以准确地匹配和提取所需的URL。首先，我们需要导入Python的re模块，它提供了正则表达式的功能。接下来，我们定义一个正则表达式模式，用于匹配URL的模式。值得注意的是，正则表达式的模式可以根据具体需求进行调整。上述示例仅展示了一种基本的URL匹配模式，实际应用中可能需要更复杂的模式来涵盖更多的URL格式。在上述示例中，我们使用了一个简单的示例文本，并从中提取了两个URL。

python 正则提取url然后去重URL

qq_44697523的博客

09-24

601

做渗透测试的时候各家子域名工具格式不一样，就写了个提取URL并且去重的工具 import re def url_regular (): fopen = open('url.txt', 'r', encoding='utf-8') file = fopen.readlines() url_output = [] new_urls = [] for i in file: i = i.strip('\n') url_re = re.fin