问题场景:
现在我有一个txt文本文档,有的行中以“_”作为分隔符分成几个近义词:
有的行中则没有分隔符,表明它没有近义词:
现在对于每行,有分隔符的就拆开,没分隔符的不用拆,将这些拆开的和没拆开的独立词语进行比较,找出完全相同的重复独立词语
Python代码实现:
from collections import Counter
# 打开文件并逐行读取
with open('siblings_v4.txt', 'r', encoding='utf-8') as f:
lines = f.readlines()
# 创建一个空列表来存储独立部分
parts = []
# 遍历每一行并拆分成独立部分
for line in lines:
line = line.strip() # 去除换行符和空格
if '_' in line:
parts.extend(line.split('_'))
else:
parts.append(line)
# 使用Counter函数找出重复的部分
duplicates = [part for part, count in Counter(parts).items() if count > 1]
# 打印出重复的部分
if duplicates:
print("重复的独立部分:")
print('\n'.join(duplicates))
else:
print("没有重复的独立部分")
由于我失误混进去一个重复项,终于让我找到了: