TF-IDF加权技术_tf-idf加权变换-CSDN博客

本文链接：https://blog.csdn.net/weixin_43907211/article/details/115405164

#信息内容安全第一次实验
–TF-IDF加权技术

文章目录

jieba库的分词使用的三种办法
listdir方法
一、实验原理
二、实验步骤
总结

jieba库的分词使用的三种办法

全模式：把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义
精简模式：把句子最精确的分开，不会添加多余单词，看起来就像是把句子分割一下
搜索引擎模式：在精简模式下，对长词再度切分

jieba.cut生成的是一个生成器，generator，也就是可以通过for循环来取里面的每一个词。
jieba.lcut 直接生成的就是一个list

  str1 = '我去北京天安门广场跳舞'
  a = jieba.lcut(str1, cut_all=True) # 全模式
  print('全模式:{}'.format(a))
  b = jieba.lcut(str1, cut_all=False) # 精简模式
  print('精简模式:{}'.format(b))
  c = jieba.lcut_for_search(str1) # 搜索引擎模式
  print('搜索引擎模式:{}'.format(c))

在这里插入图片描述
这次实验选择用精简模式。

listdir方法

listdir()方法语法格式如下：

os.listdir(path)

参数

path -- 需要列出的目录路径

返回值

返回指定路径下的文件和文件夹列表。
如果目录有中文要转码处理。

一、实验原理

TF-IDF（term frequency–inverse document frequency，词频-逆向文档频率）是一种用于信息检索（information retrieval）与文本挖掘（text mining）的常用加权技术。如果某个词条在一篇文章中出现的频率高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。
1、TF（Term Frequency）：词频，表示词条（关键字）在文本中出现的频率，常用归一化形式表示。
在这里插入图片描述

2、DF（Document Frequency）：文档频率，含有词条（关键字）的文档的数量。

3、IDF（Inverse Document Frequency）：逆文档频率，跟文档频率形成“反比关系”。
在这里插入图片描述

4、TF-IDF：在这里插入图片描述

二、实验步骤

根据TF-IDF算法的思路，编写代码计算语料中出现的所有非停用词的TF-IDF值。将结果输出到result.txt。参考步骤如下：
（1）、读取语料文件
（2）、语料预处理。处理方法包括：去除空格以及换行符、分词（可用jieba库进行分词）、去除标点符号、去除停用词
（3）、根据步骤（2）得到文档的词条，计算词条的TF、DF
（4）计算所有词条的TF-IDF值，输出到result.txt文件中

源代码

import jieba
import math
import os
import re

# 加载标点符号列表
punctuation = list(
    ':-！？。，＂＃＄％＆＇（）＊＋，－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏.')
punctuation.append(
    [' ', ',', '.', ':', ';', '?', '(', ')', '[', ']', '!', '@', '#', '%', '$', '*', "'s"])

tf = {}        # 存储 term frequency 的字典
df = {}        # 存储 document frequency 的字典
idf = {}       # 存储 inverse document frequency 的字典
tfidf = {}     # 存储 tf-idf 的字典
sum_file=6

# 加载停用词词表
with open("C:/Users/hp/Desktop/lab1/tf-idf/baidu_stopwords.txt", encoding="utf-8") as content:
    stop_words = [word.strip() for word in content.readlines()]

# 获取语料文件的文件名，准备读取语料
path='C:/Users/hp/Desktop/lab1/tf-idf/'

corpus_files = [file for file in os.listdir(path) if re.match("corpus", file)]
print(corpus_files)
for file in corpus_files:
    tmp_doc_freq = {}
    file_path=path+str(file)
    with open(file_path, "r", encoding="utf-8") as content:
        for line in content.readlines():

            # 任务1：去除空格以及换行符
            line=line.replace(' ','')
            line=line.replace('\n', '')
            line=line.replace('\r', '')
            # 任务2：分词（可使用jieba.dt.cut）
            cut=[]
            cut=jieba.lcut(line)
            # 任务3：去除标点符号
            without_punc=[]
            for u in cut:
                if str(u) in punctuation:
                    continue
                else:
                    without_punc.append(str(u))
            # 任务4：去除停用词
            afterswlis = []
            for i in without_punc:
                if str(i) in stop_words:
                    continue
                else:
                    afterswlis.append(str(i))
            # 任务5：计算 tf 和文档临时 df
            for i in afterswlis:
                if str(i) in tf:
                    count = tf[str(i)]
                    tf[str(i)] = count+1
                else:
                    tf[str(i)] = 1
            for j in afterswlis:
                if str(j) in tmp_doc_freq:
                    continue
                else:
                    tmp_doc_freq[str(j)]=1
            
    # 任务6：更新全局 df
    for word in tmp_doc_freq:
        if str(word) in df:
            count=df[str(word)]
            df[str(word)]=count+1
        else:
            df[str(word)]=1
    

# 任务7：计算 tf-idf
for w,v in df.items():
    # 计算idf
    idf[w]=math.log(sum_file/v+0.01)
    # 计算tf-idf
    tfidf[w]=idf[w]*tf[w]
    
print(sorted(tf.items(), key=lambda x: x[1]))
print(sorted(df.items(), key=lambda x: x[1]))
print(sorted(tfidf.items(), key=lambda x: x[1]))

#print(tfidf.items())

file_name=path+'result.txt'
#将tf-idf的值写入result.txt文件
with open(file_name, 'w') as f:
    for key, values in tfidf.items():
        print(key+":"+str(values)+"\r")
        f.write(key+":"+str(values)+"\r")

总结

本次实验完善了逆向匹配算法和Sunday算法，通过读源代码也能更深入地了解这两种算法，Sunday算法有点难，读代码的时候读的磕磕绊绊，现在也不能完全理解清楚，后面会再找资料熟悉熟悉这种字符串匹配方法。
实验一的补充实验是在python语言下完成的，很久没有用过python，这次又重新捡起来，写的时候也是遇到挺多小问题，列举如下：文件路径出错（不知道究竟能不能有中文）、在遍历list时多套一层循环（和c++确实不一样，python感觉更“聪明”一点）、replace函数用错。
虽然python有很多的包和库，很方便，但学习使用这些包和库也是需要耐心，一开始总想着一蹴而就，想通过调包一次解决所有问题，最后就是原理不清楚，代码逻辑不清楚，原地踏步浪费时间。搞清楚代码逻辑最重要。

引用：
https://www.jb51.net/article/199012.htm