昨天在调试我的网站文本分析工具的问题,发现replace 方法存在问题。替换不全面,有漏项。
注意,我的“ 是 ”字两边是有空格的。
s=" 是 是 是 还是 不是 这个呀"
s=s.replace(' 是 '," YES ")
print(s)
输出:
YES 是 YES 还是 不是 这个呀
你会发现,第一个“是”被正确替换为"YES"了,第二个没有。分析了一下,pytho内部的逻辑应该是认为当第一个" 是 "匹配上之后,第二“ 是 ”字就变成了”是 “,”,左边没有空格了。第三“ 是 ”又能匹配上了。所以就出现了这个怪现象。
怎么办:
只能用笨办法了,循环替。
s=" 是 是 是 还是 不是 这个呀"
while True:
old_s=s
s=s.replace(' 是 '," YES ")
if s==old_s:
break
print(s)
输出:
YES YES YES 还是 不是 这个呀
另一个办法
s=s.replace(’ ‘,’ ') #把一个空格替换成两个空格。
思考:
这问题replace()有,re.sub()也有,如果数据量不大的话,我的办法能给您提供帮助。如果数据量特别大的话,建议用sqlite 的内存数据库方案。这将是我下一篇文章的内容。