在日常的工作和学习中,有时会产生这样一种需求:筛选出Excel表格某列包含特定字符串的行。这时,我们可以使用python的pandas模块进行快速地处理。例如,筛选出表格(见下图)“信息安全方向毕业设计题目”中含有“Python”的行。
实现代码如下:
# 导入pandas库,并起别名为pd
import pandas as pd
# 这里的路径使用了绝对路径,根据目标文件的位置而定
target_path = 'D:/data/xlsx/信息安全方向毕业设计题目.xlsx'
# 读取指定Excel表格
df = pd.read_excel(target_path)
# 使用.str.find()方法,如果cell中不包含"Python",则返回-1,否则返回查找到的"Python"的下标,那么“!= -1”则表示包含“Python”,把筛选出的新的DataFrame赋值给new_df.
new_df = df[(df['本系往届毕业信息安全方向设计题目(供参考)'].str.find('Python') != -1)]
new_df.to_excel('D:/data/包含python的设计题目.xlsx') # 保存为新的Excel,命名为“包含python的设计题目.xlsx”
查看“包含python的设计题目.xlsx”: