python 办公常用一:从文本文件中提取手机号码

https://blog.csdn.net/A757291228/article/details/117464313

python 办公常用

一、从文本文件中提取手机号码

给定一个文本文件从中提取所有手机号码

import re

def main():
    with open(path, encoding="utf-8") as f:
        data = f.read()

    res = re.findall(r'(?:13[0-9]|14[01456879]|15[0-35-9]|16[2567]|17[0-8]|18[0-9]|19[0-35-9])\d{8}',
        data)

    with open(save_path, 'w') as save_file:
        for phone in res:
            save_file.write(phone + '\n')

        save_file.write('\nTotal numbers: ' + str(len(res)))
        print('Number read OK, total number: ' + str(len(res)))


if __name__ == '__main__':
    path = input("Please enter the file path: ")
    save_path = input("Please enter the file Save Path: ")
    main()

2、给图片添加水印

3、删除重复文件

4、创建二维码

5、制作 gif 动画

6、翻译英文

7、从视频文件提取音频

知识点

一、Python File

1、open()

open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)
参数说明:
file: 文件路径。
mode: 文件打开模式
buffering: 设置缓冲
encoding: 一般使用utf8
errors: 报错级别
newline: 区分换行符
closefd: 传入的file参数类型
opener: 设置自定义开启器,开启器的返回值必须是一个打开的文件描述符。
mode 参数有:
r: 以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式。
w: 打开一个文件只用于写入。如果该文件已存在则打开文件,并从开头开始编辑,即原有内容会被删除。如果该文件不存在,创建新文件。
a: 打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。也就是说,新的内容将会被写入到已有内容之后。如果该文件不存在,创建新文件进行写入。
x: 写模式,新建一个文件,如果该文件已存在则会报错。

t: 默认为文本模式,如果要以二进制模式打开,加上 b 。
b: 二进制模式。
+: 打开一个文件进行更新(可读可写)with open(file, mode='r', encoding='utf-8') as f:
	pass

2、read()

file.read([size])
从文件读取指定的字节数,如果未给定或为负则读取所有。

file.readline([size])
方法用于从文件读取整行,包括 "\n" 字符。如果指定了一个非负数的参数,则返回指定大小的字节数,包括 "\n" 字符。

file.readlines([sizeint])
读取所有行并返回列表,若给定sizeint>0,返回总和大约为sizeint字节的行, 实际读取值可能比 sizeint 较大, 因为需要填充缓冲区。如果碰到结束符 EOF 则返回空字符串。

file.write(str)
方法用于向文件中写入指定字符串,返回的是写入的字符长度。
在文件关闭前或缓冲区刷新前,字符串内容存储在缓冲区中,这时你在文件中是看不到写入的内容的。
如果文件打开模式带 b,那写入文件内容时,str (参数)要用 encode 方法转为 bytes 形式,否则报错。
	
file.writelines(sequence)
方法用于向文件中写入一序列的字符串。
这一序列字符串可以是由迭代对象产生的,如一个字符串列表。
换行需要制定换行符 \n。

二、Python OS

1、os.listdir()

用于返回指定的文件夹包含的文件或文件夹的名字的列表。这个列表以字母顺序。 它不包括 . 和 … 即使它在文件夹中。

os.listdir(path)
参数 path -- 需要列出的目录路径
返回值 返回指定路径下的文件和文件夹列表。

2、os.path.exists(path)

3、os.path.isfile(path)

4、os.path.basename(path)

5、os.path.dirname(path)

6、os.path.join(path1[, path2[, …]])

7、os.path.split(path)

把路径分割成 dirname 和 basename,返回一个元组。

8、os.path.splitext(path)

分割路径中的文件名与扩展名。

三、正则表达式

1、手机号码

1)各大运营商手机号码段

中国电信号段

133、153、173、177、180、181、189、190、191、193、199

中国联通号段

130、131、132、145、155、156、166、167、171、175、176、185、186、196

中国移动号段

134(0-8)、135、136、137、138、139、1440、147、148、150、151、152、157、158、159、172、178、182、183、184、187、188、195、197、198

中国广电号段

192

其他号段

14号段部分为上网卡专属号段:中国联通145,中国移动147,中国电信149

虚拟运营商:

电信:1700、1701、1702、162
移动:1703、1705、1706、165
联通:1704、1707、1708、1709、171、167
卫星通信:1349、174
物联网:140、141、144、146、148

手机号码起始1,第二位是3456789中的任意一个,第三位有的是0-9全段,有的只是部分,如下:

13和18开头的手机号是全段
15和19开头的手机号后面除4外都有,无154和194
17开头的手机号后面除9外都有
14开头的手机号除2,3外都有,无142和143
16开头的手机号后面只有2567

2)手机号验证的最新正则表达式:

^(?:13[0-9]|14[01456879]|15[0-35-9]|16[2567]|17[0-8]|18[0-9]|19[0-35-9])\d{8}$

2、Email地址

似乎没有统一的邮箱账号格式,但是所有邮箱都符合“名称@域名”的规律。对于名称和域名的字符限制,我们可以根据项目的情况定义一个,比如只允许有英文、数字、下划线等组成。

实例1、只允许英文字母、数字、下划线、英文句号、以及中划线组成
举例:zhangsan-001@sina.com

分析邮件名称部分:

26个大小写英文字母表示为a-zA-Z
数字表示为0-9
下划线表示为_
中划线表示为-
由于名称是由若干个字母、数字、下划线和中划线组成,所以需要用到+表示多次出现
根据以上条件得出邮件名称表达式:[a-zA-Z0-9_-]+

分析域名部分:

一般域名的规律为“[N级域名][三级域名.]二级域名.顶级域名”,比如“qq.com”、“www.qq.com”、“mp.weixin.qq.com”、“12-34.com.cn”,分析可得域名类似“** .** .** .**”组成。

”部分可以表示为[a-zA-Z0-9_-]+
“.
”部分可以表示为.[a-zA-Z0-9_-]+
多个“.**”可以表示为(.[a-zA-Z0-9_-]+)+

综上所述,域名部分可以表示为[a-zA-Z0-9_-]+(.[a-zA-Z0-9_-]+)+

最终表达式:

由于邮箱的基本格式为“名称@域名”,需要使用“^”匹配邮箱的开始部分,用“$”匹配邮箱结束部分以保证邮箱前后不能有其他字符,所以最终邮箱的正则表达式为:

^[a-zA-Z0-9_-]+@[a-zA-Z0-9_-]+(.[a-zA-Z0-9_-]+)+$

实例2、名称允许汉字、字母、数字,域名只允许英文域名
举例:张三001Abc@lenovo.com.cn

分析邮件名称部分:

汉字在正则表示为[\u4e00-\u9fa5]
字母和数字表示为A-Za-z0-9

通过分析得出邮件名称部分表达式为[A-Za-z0-9\u4e00-\u9fa5]+

分析邮件域名部分

邮件部分可以参考实例1中的分析域名部分。
得出域名部分的表达式为[a-zA-Z0-9_-]+(.[a-zA-Z0-9_-]+)+。

最终表达式:

我们用@符号将邮箱的名称和域名拼接起来,因此完整的邮箱表达式为
  ^[A-Za-z0-9\u4e00-\u9fa5]+@[a-zA-Z0-9_-]+(.[a-zA-Z0-9_-]+)+$

3、身份证号

15/18位身份证号

xxxxxx yyyy MM dd 375 0 十八位
xxxxxx yy MM dd 75 0 十五位

地区: [1-9]\d{5}
年的前两位: (18|19|([23]\d)) 1800-2399
年的后两位: \d{2}
月份: ((0[1-9])|(10|11|12))
天数: (([0-2][1-9])|10|20|30|31) 闰年不能禁止29+
三位顺序码: \d{3}
两位顺序码: \d{2}
校验码: [0-9Xx]

正则表达式

十八位: ^[1-9]\d{5}(18|19|([23]\d))\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\d{3}[0-9Xx]$

十五位: ^[1-9]\d{5}\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\d{2}$

总:

( ^[1-9]\d{5}(18|19|([23]\d))\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\d{3}[0-9Xx]$)|(^[1-9]\d{5}\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\d{2}$)

4、 re

Python 4-01 re

import re

content = 'Citizen wang , always fall in love with neighbour,WANG'
pattern = re.compile(r'wan\w', re.I)  
subStrings = pattern.findall(content)

# subStrings = re.findall(r'wan\w', content, re.I)
# subStrings = re.findall(re.compile(r'wan\w', re.I), content)

# 匹配所有的邮箱
res = re.findall(r'^[A-Za-z0-9\u4e00-\u9fa5]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+$', str)
# 匹配所有的手机号码
res = re.findall(r'^(?:13[0-9]|14[01456879]|15[0-35-9]|16[2567]|17[0-8]|18[0-9]|19[0-35-9])\d{8}$', str)
注意:| 或规则 表示只要满足其中之一就可以匹配。
它的有效范围是它两边的整条规则,比如‘dog|cat’匹配的是‘dog’和’cat’,而不是’g’和’c’。如果想限定它的有效范围,必需使用一个无捕获组‘(?:)’包起来。比如要匹配‘I have a dog’或’I have a cat’,需要写成r’I have a (?:dog|cat)’,而不能写成r’I have a dog|cat’。

四、opencv

五、hashlib、md5

六、qrcode

七、 imageio

八、translate

九、moviepy

  • 1
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值