词典法——批量输出情感词计数结果到列表中

  1. 读入了已经分词并去停用词的文件
with open('cutWords_list.txt',encoding="utf-8") as file:  #读入了已经分词并去停用词的文件
    cutWords_list = [k.split() for k in file.readlines()]

cutWords_list示例如下:

[['Outline'], ['交易', '概述', "'"], ['没有', '单位', "'"], ['公司', '控股', '股东', '新疆', '宏大', '房地产', '开发', '有限公司', '已于', '2003', '年', '7', '月', '25', '日', '广州', '博融', '投资', '有限公司', '签署', '股份', '转让', '协议', ',', '转让', '持有', '公司', '法人股', '40', ',', '206', ',', '226', '股', ',', '占本', '公司', '总', '股本', '28%', ',', '转让', '价款', '人民币', '8000', '万元', '股份', '转让', '过户', '手续', '办理', '完成', ',', '新疆', '宏大', '房地产', '开发', '有限公司', '不再', '持有', '公司', '法人股', ',', '广州', '博融', '投资', '有限公司', '持有', '公司', '法人股', '40', ',', '206', ',', '226', '股', ',', '占本', '公司', '总', '股本', '28%', ',', '第一', '股东'], ['交易', '概述', '公司', '控股', '子公司', '深圳市', '赛格', '达', '声', '房地产', '开发', '有限公司', '以下', '简称', '"', '达', '声', '地产', '"', '已于', '2003', '年', '12', '月', '31', '日', '深圳市', '博尔', '实业', '有限公司', '以下', '简称', '"', '博尔', '实业', '"', '签订', '股权', '转让', '协议书', '约定', '持有', '深圳市', '亚洋', '机电', '实业', '有限公司', '以下', '简称', '"', '亚洋', '机电', '"', '60', '%', '股权', '人民币', '2028', '万元', '价格', '转让', '博尔', '实业', '交易', '未', '构成', '关联', '交易']]
  1. 定义一个函数来输出每个文档中词语在特定情感词典中出现而次数。
    参数含义:cutWords_list:此形参应该传入已经分好词并去除停用词的嵌套列表(见上),type_list应该传入不同的情感词列表
def count_list(cutWords_list,type_list): 
    negative_count=[]
    for each_file in cutWords_list:
        negative_count.append(count_words(each_file,type_list))
    return negative_count
print (count_list(cutWords_list,negative_list)[0:100])

输出结果为:

[0, 0, 1, 1, 0, 0, 2, 2, 2, 2, 10, 10, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 2, 2, 3, 0, 3, 0, 0, 0, 1, 3, 4, 15, 0, 11, 4, 3, 2, 0, 0, 0, 6, 3, 0, 0, 5, 2, 2, 1, 10, 2, 2, 0, 0, 1, 1, 3, 5, 5, 2, 1, 1, 5, 5, 2, 1, 0, 2, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 4, 1, 0, 2, 0, 0, 2, 1, 3, 0, 0, 9, 9, 0, 0, 3, 1, 1, 1, 0, 0]

下文是整体过程:
写在前面:文档指的是一条记录,占一行。
下文是对情感法进行简单情感分析的过程博客,并不涉及对词语的加权、对程度副词加权和对否定词取反的操作,仅仅对词典中的词语进行计数。
输入:待计数文档,已有的六个情感词典。
输出:对六个词典中出现的词语进行计数得到的六列数据。
顺序见下:

分词并去停用词返回嵌套列表并保存到本地
https://blog.csdn.net/weixin_43919570/article/details/104316316
从母词及其扩充的情感词典txt文件读取到列表list中
https://blog.csdn.net/weixin_43919570/article/details/104311270
判断文档中的词语有多少在情感词典中并计数
https://blog.csdn.net/weixin_43919570/article/details/104312714
批量输出情感词计数结果到列表中
https://blog.csdn.net/weixin_43919570/article/details/104315090
其实4是对3加了一个循环得到的,应该将3和4看成一体,作用是输出计数列表。
词典法情感分析数词操作并输出结果到csv文件中
https://blog.csdn.net/weixin_43919570/article/details/104316043
第5篇文章是对以上四篇文章的汇总使用。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值