题目描述:
该题目共二个问题,分成两道题分别作答。2 个文本文件分别摘自2019年和2018年的政府工作报告。请在右侧代码框中个源文件 ,实现以下功能
本题解答问题1
问题1 :数据统计。要求: 统计出两个文件中出现次数最多的10 个词语,作为主题词,要求词语不少于2个字符,打印输出在屏幕上,输出示例如下:(示例仅作为示意)
2019:改革:10,企业:9,…(略),深化:2
2018:改革:11,效益,7,…(略),深化:1
注意:输出格式采用英文冒号和英文逗号,标点符号前后无空格,各词语间用逗号分隔,最后一个词语后无逗号。
import jieba
d={
}
d2019={
}
fo=open('政府工作报告2018.txt','r',encoding='utf-8')
fi=open('政府工作报告2019.txt','r',encoding='utf-8')
for line in fi.readlines():
m=jieba.lcut(line.strip('\n'))
for k in m:
if len(k)>=2:
d2019[k]=d2019.get(k,0)+1
lt = list(d2019.items())
lt.sort(key = lambda x:x[1],reverse = True)
print('2019:',end='')
for i in range(10):
if i+1 <10:
print('{}:{},'.format(lt[i][0