需求
有一个文件,对其进行单词统计,不区分大小写,并显示单词重复最多的10个单词,排除具体某些关键词不统计
思路
- 计数首先想到字典一次性统计
- 使用切割要想到默认以空格切割字符串,遇到特殊字符包含单词时,需要二次切割
- 对应二次切割首先想到高阶函数,传参对象传入函数
- 注意二次切割出来后返回什么值?是列表还是什么,根据需求进行验证
- 写函数的命名要紧贴业务名称
- 遇到数据量较大时,多采用迭代器、函数迭代器,更加节约内存资源
- key生成方式采用两种函数,任意调用一种函数即可
- 显示top(10)时,可以一次性显示,也可以通过迭代函数按需生成
代码实现
# -*- coding: UTF-8 -*-
def mkkey0(s:str):
"""
This function is to split word inclede special character
For example:
Source code: Lib/posix'path.py (for POSIX), Lib/ntpath.py (for Windows NT)
s.split() method :
list=['Source','code:','Lib/posix'path.py','(for POSIX)','Lib/ntpath.py','(for Windows NT)']
But we want:
list=['Source','code:','Lib','posix','path','py','for',POSIX','Lib','ntpath','py','for', 'Windows','NT']
实验:
wordlist = ["goggd`e","qw,sh","god"] 测试验证map函数生成的结果
for w in map(makekey,wordlist):
print(w) 测试结果返回是列表
['goggd', 'e'] 提醒使用时需再次迭代
['qw', 'sh']
['god']
主要思路是将特殊字符替换为空格字符,存储在列表list中,然后通过"".join链接成只带空格的字符串
"""
keychar = set("""~!@#$%^&*()_+`,.-;'\:\"/?""")
key = s.lower()
strlist = []
for c in key:
strlist.append(" ") if c in keychar else strlist.append(c)
return "".join(strlist).split()
def<