【Python】处理excel文本-提取文本

最新推荐文章于 2024-04-26 19:55:12 发布

MaviBleu

最新推荐文章于 2024-04-26 19:55:12 发布

阅读量3.2k

点赞数 3

分类专栏： Python~有趣文章标签： python excel 正则表达式脚本语言

本文链接：https://blog.csdn.net/weixin_48350129/article/details/114263852

版权

Python~有趣专栏收录该内容

2 篇文章 1 订阅

订阅专栏

目的：从该excel文件的E列中的大批文字中筛选出来cveID。

思路：编辑excel文件需要先打开它，即需要用到xlrd；写入excel需要用到xlwt；在E列中匹配cveID的规则需要用到正则表达式，即需引用re。
在这里插入图片描述
一、首先在cmd中下载安装相应的包

pip install xlrd

pip install xlwt

re与urllib是python的内置库，不需要单独安装

检查一下 pip list
在这里插入图片描述
完成

二、写代码

1、首先把要编辑的excel读出来

import xlrd

data = xlrd.open_workbook(r"E:\知识库平台\results.xls")

table = data.sheets()[0]

table2 = data.sheet_by_index(0)

table3=data.sheet_by_name(u'通告')

测试一下：
在这里插入图片描述
2、再读取所需的数据

text = table.cell_value(1,4)    //即读取第1行第4列的数据

print(text)测试一下：
在这里插入图片描述
数据太长，被折叠了，显示已经成功输出了

3、处理获取的原数据，利用正则表达式匹配所需的数据，即cveID。

分析一下，cveID都是"CVE--"这样的格式

import re
cveNum = re.findall(r"CVE-(.{1,5}-.{1,5})",text)

print(cveNum)测试一下：
在这里插入图片描述
但是我只想要第一个值，后面的有些是重复的，有些是文本中提到的其他的ID。

就只取cveNum的第一个值，cveNum[0]
在这里插入图片描述
4、遍历excel的每一行，依次筛选出cveID

首先就要获得excel一共有多少行，再遍历每一行并输出cveID

nrows = table.nrows

for a in range(nrows):

	text = table.cell_value(a,4) 

	print(text)

    cveNum = re.findall(r"CVE-(.{1,5}-.{1,5})",text)

    print(cveNum[0])

运行一下，发现报错了。是因为并不是每一行的原数据中都有cveID，有的没有匹配到，所以相应的cveNum列表就为空。
在这里插入图片描述

//那么加一个判断cveNum是否为空的判断就好了
if len(cveNum):
      print(cveNum[0])
else:
      print("no cveID")

在这里插入图片描述
成功

5、最后只需要把数据写入列表就行了，写入的时候把“cve-”这个前缀加上

import xlwt
workbook = xlwt.Workbook(encoding='utf-8', style_compression=0)
sheet = workbook.add_sheet('test', cell_overwrite_ok=True)
if len(cveNum):
      sheet.write(a,4,"CVE-"+str(cveNum[0]))
else:
      sheet.write(a,4,"no cveID")
workbook.save(r'E:\知识库平台\test.xls')

结果出来啦
在这里插入图片描述
三、问题总结

1、正则表达式的运用

2、判断列表是否为空的方法

if len(list):
pass
else:
pass
如果列表不为空，则长度不为0，值为True。

完整代码：
在这里插入图片描述

MaviBleu

关注

3
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
【Python】处理excel文本-提取文本

目的：从该excel文件的E列中的大批文字中筛选出来cveID。思路：编辑excel文件需要先打开它，即需要用到xlrd；写入excel需要用到xlwt；在E列中匹配cveID的规则需要用到正则表达式，即需引用re。一、首先在cmd中下载安装相应的包pip install xlrdpip install xlwtre与urllib是python的内置库，不需要单独安装检查一下 pip list完成二、写代码1、首先把要编辑的excel读出来import xlrddata = xl
复制链接

扫一扫