前言
今天要对一个元素内容是中文的列表进行排序输出,结果发现排序结果并不是与预期不同,经过一番搜索后发现,用第三方库pypinyin对中文进行转换后即可解决问题。
一、问题
lz=['清华大学','北京大学','复旦大学','上海交通大学','浙江大学']
lz.sort()
print(lz)
>>>['上海交通大学', '北京大学', '复旦大学', '浙江大学', '清华大学']
>>>正确排序['北京大学', '复旦大学', '清华大学', '上海交通大学', '浙江大学']
我们对中文进行排序时,下意识的按照拼音排序,也就是字典序,但sort、sorted()都是参照字符的编码(Unicode)大小,进行排序的,排出来的结果当然是杂乱的。
二、解决
1.思路
我们的习惯是对中文按拼音进行排序,所有可以先讲中文转成拼音,在对其进行排序。
2.实现
引入pypinyin库(功能多多)
详细文档请访问:
详细文档
API核心文档:
API核心文档
代码如下(示例):
from pypinyin import pinyin, Style
lz=['清华大学','北京大学','复旦大学','上海交通大学','浙江大学']
lz.sort(key=lambda keys:[pinyin(i, style=Style.TONE3) for i in keys])
print(lz)
>>>['北京大学', '复旦大学', '清华大学', '上海交通大学', '浙江大学']