关键字top排行榜业务

最新推荐文章于 2022-06-24 13:33:32 发布

xuexiaoyaani

最新推荐文章于 2022-06-24 13:33:32 发布

阅读量383

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/xuexiaoyaani/article/details/80071078

版权

这篇博客介绍了如何使用Python处理文件中的单词统计，不区分大小写，排除特定关键词，展示出现最频繁的10个单词。文章重点讲解了思路，包括字典统计、字符串切割、高阶函数应用，并提供了代码实现，特别强调了在处理大量数据时应考虑内存效率和生成器的使用。

摘要由CSDN通过智能技术生成

需求

有一个文件，对其进行单词统计，不区分大小写，并显示单词重复最多的10个单词，排除具体某些关键词不统计

思路

计数首先想到字典一次性统计
使用切割要想到默认以空格切割字符串，遇到特殊字符包含单词时，需要二次切割
对应二次切割首先想到高阶函数，传参对象传入函数
注意二次切割出来后返回什么值?是列表还是什么，根据需求进行验证
写函数的命名要紧贴业务名称
遇到数据量较大时，多采用迭代器、函数迭代器，更加节约内存资源
key生成方式采用两种函数，任意调用一种函数即可
显示top(10)时，可以一次性显示，也可以通过迭代函数按需生成

代码实现

# -*- coding: UTF-8 -*-
def mkkey0(s:str):
    """
    This function is to split word inclede special character
    For example:
    Source code: Lib/posix'path.py (for POSIX), Lib/ntpath.py (for Windows NT)
    s.split() method :
    list=['Source','code:','Lib/posix'path.py','(for POSIX)','Lib/ntpath.py','(for Windows NT)']
    But we want：
    list=['Source','code:','Lib','posix','path','py','for',POSIX','Lib','ntpath','py','for', 'Windows','NT']
    实验：
    wordlist = ["goggd`e","qw,sh","god"] 测试验证map函数生成的结果
    for w in map(makekey,wordlist):
        print(w)                         测试结果返回是列表
    ['goggd', 'e']                       提醒使用时需再次迭代
    ['qw', 'sh']
    ['god']
    主要思路是将特殊字符替换为空格字符，存储在列表list中，然后通过"".join链接成只带空格的字符串
    """
    keychar = set("""~!@#$%^&*()_+`,.-;'\:\"/?""")
    key = s.lower()
    strlist = []

    for c in key:
        strlist.append(" ") if c in keychar else strlist.append(c)

    return "".join(strlist).split()


def<