TF-IDF:衡量某个词对文章的重要性由TF和IDF组成
TF:词频(因素:某词在同一文章中出现次数)
IDF:反文档频率(因素:某词是否在不同文章中出现)
TF-IDF = TF*IDF
词频(TF)=某个词在当前文章中出现的次数 / 当前文章的总词数
反文档频率(IDF)=Log( 语料库的文档总数 / ( 包含该词的文档数+1 ) )
"""
Step 1:原始数据预处理
Step 2:产生IDF词表
Step 3:提取句子的关键词
"""
file_path_dir = "./data"
raw_path = './raw.data'
idf_path = './idf.data'
def read_file_handler(file_path):
fd = open(file_path, 'r', encoding='utf-8')
return fd
file_raw_out = open(raw_path, 'w', encoding='utf-8')
file_name = 0
for fd in os.listdir(file_path_dir):
file_path = file_path_dir + '/' + fd
content_list = []
file_fd = read_file_handler(file_path)
for line in file_fd:
content_list.append(line.strip())