关键字top排行榜业务

这篇博客介绍了如何使用Python处理文件中的单词统计,不区分大小写,排除特定关键词,展示出现最频繁的10个单词。文章重点讲解了思路,包括字典统计、字符串切割、高阶函数应用,并提供了代码实现,特别强调了在处理大量数据时应考虑内存效率和生成器的使用。
摘要由CSDN通过智能技术生成

需求

有一个文件,对其进行单词统计,不区分大小写,并显示单词重复最多的10个单词,排除具体某些关键词不统计

思路

  • 计数首先想到字典一次性统计
  • 使用切割要想到默认以空格切割字符串,遇到特殊字符包含单词时,需要二次切割
  • 对应二次切割首先想到高阶函数,传参对象传入函数
  • 注意二次切割出来后返回什么值?是列表还是什么,根据需求进行验证
  • 写函数的命名要紧贴业务名称
  • 遇到数据量较大时,多采用迭代器、函数迭代器,更加节约内存资源
  • key生成方式采用两种函数,任意调用一种函数即可
  • 显示top(10)时,可以一次性显示,也可以通过迭代函数按需生成

代码实现

# -*- coding: UTF-8 -*-
def mkkey0(s:str):
    """
    This function is to split word inclede special character
    For example:
    Source code: Lib/posix'path.py (for POSIX), Lib/ntpath.py (for Windows NT)
    s.split() method :
    list=['Source','code:','Lib/posix'path.py','(for POSIX)','Lib/ntpath.py','(for Windows NT)']
    But we want:
    list=['Source','code:','Lib','posix','path','py','for',POSIX','Lib','ntpath','py','for', 'Windows','NT']
    实验:
    wordlist = ["goggd`e","qw,sh","god"] 测试验证map函数生成的结果
    for w in map(makekey,wordlist):
        print(w)                         测试结果返回是列表
    ['goggd', 'e']                       提醒使用时需再次迭代
    ['qw', 'sh']
    ['god']
    主要思路是将特殊字符替换为空格字符,存储在列表list中,然后通过"".join链接成只带空格的字符串
    """
    keychar = set("""~!@#$%^&*()_+`,.-;'\:\"/?""")
    key = s.lower()
    strlist = []

    for c in key:
        strlist.append(" ") if c in keychar else strlist.append(c)

    return "".join(strlist).split()


def<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值