Python +正则表达式爬取豆瓣页面邮箱

最新推荐文章于 2021-07-31 11:11:48 发布

tsing_9521

最新推荐文章于 2021-07-31 11:11:48 发布

阅读量549

点赞数

分类专栏： python 入门 python爬虫正则表达式文章标签： Python 爬虫正则表达式

本文链接：https://blog.csdn.net/weixin_44595372/article/details/88634158

版权

python 入门同时被 3 个专栏收录

40 篇文章 0 订阅

订阅专栏

python爬虫

6 篇文章 0 订阅

订阅专栏

正则表达式

5 篇文章 0 订阅

订阅专栏

python + 正则爬取豆瓣页面的邮箱：

import requests
import re

html=requests.get('https://www.douban.com/group/topic/124565040/?start=0')
pattern=re.compile(r'[a-zA-Z0-9-_\.]+@[a-zA-Z0-9-_]+\.[a-zA-Z0-9-_]+')
res=re.findall(pattern,html.text)
for i in set(res):
    print(i)

主要是邮箱正则表达式的书写
一般邮箱的格式是：
emailname@host.suffix

emailname 可以包含：多个数字字母短横线下划线点，即 [a-zA-Z0-9-.]+
域名氛围两部分 host
host 可以包含：多个数字字母短横线下划线，[a-zA-Z0-9-]+
suffix 可以包含：多个数字字母短横线下划线，[a-zA-Z0-9-_]+

所以邮箱的正则就是：[a-zA-Z0-9-.]+@[a-zA-Z0-9-]+.[a-zA-Z0-9-_]+

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

tsing_9521

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

requests+正则表达式爬取豆瓣读书top250

懒懒的书虫

12-29

4098

简单的python联手项目，通过rquests库请求得到豆瓣top250网页源代码，并通过正则表达式匹配得到对应信息-书名，作者信息，评分以及简介。网站的URL为’https://book.douban.com/top250?start=0’,但我们拉到底部发现250本读书的信息被分成了10页，这就需要我们首先对URL的规律进行分析得到所有页面的URL信息传递给get（）方法中请求源代码。点击...

python爬虫03 - 正则表达式 re模块

LonelyDragons的博客

08-18

1086

1.正则表达式的简介操作练习的话可以用 jupyter IDLE 或者是cmd ipython 都行 1.1 概念 正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑 1.2 正则表达式的应用场景 • 表单验证(例如 : 手机号、邮箱、身份证… ) • 爬虫 2. 正则表达式对Python的支持 2.1 普通字符字母、数字、汉字、下划线、以及没有特殊定义的符号，都是"普通字符"。正

参与评论您还未登录，请先登录后发表或查看评论

Python正则表达式抓取邮箱

weixin_33722405的博客

09-20

339

emailRegex = r"[-_\w\.]{0,64}@([-\w]{1,63}\.)*[-\w]{1,63}" email = re.search(emailRegex,"str") 用户名中字符主要有大小写字母，下划线_，阿拉伯数字，点号。并且有长度限制{0，64}，用字符组限制为[-_\w\.]{0,64} 中间用@分割开主机名则有多种情况，通过域名描述，域名由字...

linux shell 豆瓣,用Linux shell脚本爬取豆瓣邮箱

weixin_36018748的博客

05-14

199

前两天总结一下邮箱格式的正则表达式，写了一个脚本来判断输入的邮箱地址是否符合邮箱的格式。在网上找资料的时候，发现基本都是用Python和Java来做爬虫，当然Python的居多。本着学习的心态，既然得到了邮箱地址有效性的判断，那就顺便用脚本写一个抓取网页邮箱的爬虫吧。豆瓣上着了一个网页，是一个人发起了一项活动，让大家留下邮箱，然后和陌生人进行邮箱通信，增加温暖。(也是很感性呢)，不过现在的人们越来...

使用正则表达式抓取网页的邮箱

qq_38116774的博客

01-16

469

实现原理实现起来挺简单的，就是通过url访问你需要抓取的网站，使用正则表达式去匹配网页中的内容，然后将匹配的结果放在本地的一个txt文件中，在使用的时候直接使用即可（不能用来做坏事噢）代码 import java.io.*; import java.util.regex.*; import java.net.*; public class MailTest{ public static ...

python excelwriter修改保存路径_用 Python 爬取分析每日票房数据

weixin_39946327的博客

11-20

174

♚作者：小李子，某外企分析师，主要从事IT行业，但个人非常喜欢电影市场分析，所以经常会写一些电影领域的文章。博客：http://blog.sina.com.cn/leonmovie不知不觉又过了一年，挥别2019，让我们拥抱这全新的2020，祝各位新年快乐！最近在处理一些和有关电影的工作，需要用到一些北美电影票房数据，而这部分数据最权威的网站当属Box Office Mojo(以下简称B...

python爬取豆瓣电影(requests模块)

12-22

爬取的页面为：运行结果如下图所示： python代码如下：在这里插入代码片 # _*_ coding:utf _*_ # 邮箱：3195841740@qq.com # 人员：21292 # 日期：2020/3/8 11:05 # 工具：PyCharm import requests from lxml ...

基于python爬虫对豆瓣影评分析进行爬取的课程设计.zip

12-08

4. **正则表达式（Regex）**：在提取特定格式的数据时，正则表达式非常有用。它能帮助我们匹配和提取文本模式，如邮箱地址、电话号码或者影评内容。 5. **豆瓣API与网页抓取**：豆瓣提供了API接口，但可能有访问...

使用正则表达式在页面中定位目标数据

正则表达式简介 正则表达式是一种用来匹配字符串的特殊模式。在文本处理、网页开发和数据提取等领域中，正则表达式都扮演着重要的角色。本章将介绍正则表达式的基本概念、语法以及常用规则。 ## 1.1 什么是正则...

python邮箱抓取脚本

02-11

python邮箱抓取脚本，利用正则表达式从文本内容中抓取邮箱。

正则表达式实例网页爬虫抓取页面邮箱地址

yangxiaoshuoabc的博客

05-11

377

/*正则表达式实例网页爬虫抓取页面邮箱地址 */ import java.io.*; import java.net.*; import java.util.regex.*; public class Regex{ public static void main(String[] args)throws Exception{ getMails(args[0]); } public

python基础 & re模块

Hanmin_hm的博客

03-10

219

1、常用正则表达式符号 ⒈通配符（ . ）作用：点（.）可以匹配除换行符以外的任意一个字符串例如：‘.ython’ 可以匹配‘aython’ ‘bython’ 等等，但只能匹配一个字符串 2转义字符（ \ ）作用：可以将其他有特殊意义的字符串以原本意思表示例如：‘python.org’ 因为字符串中有一个特殊意义的字符串（.）所以如果想将其按照普通意义就必须使用...

去掉字符串中中文

lqbz的总结

07-31

696

# 去掉字符串中中文 strValue= "kdksf982384划划夺“ rule = re.compile(r"[^a-zA-Z0-9_]") print(rule.sub('',strValue)) ## kdksf982384___ # -------- # 去掉字符串中字母数字 strValue= "kdksf982384划划夺“ rule = re.compile(r"[a-zA-Z0-9_]") # ^反向取 # 满足条件的为替换为空 print(rule.sub('',strValue))

Python基础学习----正则匹配

天马行空的专栏

10-17

2748

python中的正则表达式（re模块）

weixin_30894389的博客

05-19

1439

一、简介 正则表达式本身是一种小型的、高度专业化的编程语言，而在python中，通过内嵌集成re模块，程序媛们可以直接调用来实现正则匹配。正则表达式模式被编译成一系列的字节码，然后由用C编写的匹配引擎执行。二、正则表达式中常用的字符含义 1、普通字符和11个元字符：普通字符匹配自身 abc abc . 匹配任意除换行符"\...

python最简单的爬取邮箱地址_python小脚本－提取邮箱

weixin_39854440的博客

11-28

914

使用python正则表达式，在一堆各种字符中提取是邮箱名的字符串。import refile = open("AT.txt")c=[]for line in file.readlines():contant = re.findall(r"[\w\d\.-_]+(?=\@)",line)mail=list(set(contant))for i in mail:if i != "":print ic....

正则表达式：模式（[...]、re*、(?#...)... ）+实例（[a-zA-Z0-9]、\w...）

Yummy的博客

06-01

3121

1.正则表达式模式模式字符串使用特殊的语法来表示一个正则表达式：字母和数字表示他们自身。一个正则表达式模式中的字母和数字匹配同样的字符串。多数字母和数字前加一个反斜杠时会拥有不同的含义。标点符号只有被转义时才匹配自身，否则它们表示特殊的含义。反斜杠本身需要使用反斜杠转义。由于正则表达式通常都包含反斜杠，所以你最好使用原始字符串来表示它们。模式元素(如r'\t'，等价于\\t)匹配相应的特殊字符。下表列出了正则表达式模式语法中的特殊元素。如果你使用模式的同时提供了可选的标志参数...

Python正则表达式爬取网页信息教程

"Python使用正则表达式获取网页中所需要的信息" 在Python中，正则表达式是一个强大的工具，常用于处理和分析文本，尤其是在从网页中抽取特定信息时。本资源主要讲解如何使用Python的正则表达式库`re`来提取网页中的...