前言
在把爬虫爬到的数据存入Excel之后,有遇到过文本有很多空行的情况,在文章的中间和前面后面,如下图:
我觉得Excel的替换又不好用,所以写了这么一个小工具去处理这样的一个格式的数据,省得自己一个个去去删(不现实别去干 )
代码如下:
# 去除Excel文本中多余的空行,并且写入到原来的位置
def remove_emptyrow(path=r'', rcolumn=1): # path=路径,rcolum=要处理的列
wb = openpyxl.load_workbook(path) # 加载文件
ws = wb.active
for i in range(1, ws.max_row + 1):
data = []
old = ws.cell(i, rcolumn).value
r = re.split(r'\s+', old) # 去除文本中间的空行
for j in r: # 去除文本前后的空行
if j == '':
pass
else:
data.append(j)
ws.cell(i, rcolumn).value = '\n'.join(data) # 写入
wb.save(path) # 保存
wb.close()
print("处理完成")
remove_emptyrow()
其实这代码不但会去删换行(\n),也可以把也可以把爬虫爬到的\t,\r,这种格式删除,其实很大一部分空行就是这些分隔符引起的。