1.起因:
由于很多时候中文命名的不好使用,但命名为英文的话。博主的词汇量有限,所以就不为难自己了。
我平时都是使用拼音对应中文来给测试语料命名。当我为所有测试语料都用拼音命名完后,遇到要按不同的产品挑出对应词条的语料,在几千个文件里一次挑一个太慢了。挑几百个我就想歇菜了。(哈哈哈哈。开玩笑的啦 ,只要思想不滑坡,办法总比困难多💪)
已知:一个产品的词条可能十几个或者一百多个,词条都是中文的,文件命名都是拼音命名的。
那么我可以先把中文词条列表生成一个拼音清单,再用清单里的拼音运行脚本去找啊。
2.代码如下:
from pypinyin import lazy_pinyin
import pandas as pd
#读入EXCEL文件
ex = pd.read_excel("../test_word/test.xlsx")
result = ""
for i in range(ex.shape[0]):
zh_word = (ex.iloc[i,0])
test_list = lazy_pinyin(zh_word)
#result = result + ''.join(test_list) + ' '#输出结果不换行
result = result +''.join(test_list)+'\n'#输出结果换行
print(result)
3.例子里的中文词表如下:
4.运行脚本后:
是不是很快,几百个中文转拼音也不是问题了呢~
需要注意的是,我们很多汉字是多音字,例如:调,即可读diao也可读tiao。所以脚本处理完记得检查一下哟~
下篇写使用脚本在几千个文件里一次性把一个产品对应的所有词条的语料文件挑出来~
Python-实现筛选出文件夹下含有特定名字的文件