需求:在Excel表中,某一个单元格内有姓名、身份证号码、住址等信息,要将身份证号码单独提取出来。
模拟数据:
xx | 信息 | xx |
xx | 姓名:张三 身份证号码:11111111111111111111 地址:中国北京 电话号码:11111111111 | xx |
上代码:
import pandas as pd
import re
# 读取Excel文件
df = pd.read_excel('data.xlsx', engine='openpyxl')
# 提取身份证号码
for index, row in df.iterrows():
cell_value = row['包含身份证号码的列名']
id_number = re.findall(r'\d{17}[\dXx]', cell_value)
if id_number:
print(f"身份证号码: {id_number[0]}")