使用spacy（数据预处理）和自定义的tf-idf函数进行句向量化

tyashu

已于 2022-09-28 21:10:30 修改

阅读量914

点赞数 2

文章标签： python nlp

于 2022-04-08 17:01:51 首次发布

本文链接：https://blog.csdn.net/weixin_46022459/article/details/123777012

版权

本文介绍如何使用spacy进行数据预处理，并基于TF-IDF算法编写自定义函数对新闻文本进行句向量化。通过计算每个单词的TF-IDF值，最后将结果保存为txt文件。

摘要由CSDN通过智能技术生成

本次实验将根据tf-idf的计算方法编写一个自定义的计算tf-idf的方法，对新闻文本数据进行句向量化。具体编写思路如下图所示：
在这里插入图片描述

题目要求：

根据tf-idf的计算方法编写一个自定义的计算tf-idf的方法（推荐包装成函数或者类），使用公式可以在pdf中进行说明；
使用文本数据的test.txt（每一行为一条新闻数据），使用spacy（数据预处理）和自定义的tf-idf函数（词袋模型）句向量化（输出结果可以自定义结构，但需要在pdf中进行说明），并输出成resut.txt提交。

一、导入包

导入本次实验需要用的包。

import spacy
import math
from collections import Counter

二、导入文件

使用with open()方法打开新闻文本文件。

def file(path):
    with open(path,'r',encoding='UTF-8') as fp:
        data = fp.readlines()
    return data

导入后的新闻文本如下：
从上图可以看到，以每一行为一条新闻数据来划分的话，这里一共划分出了85个新闻数据文档。

三、使用spacy进行数据预处理

根据spacy自带的停词库，对每一个新闻数据文档进行分词。
(具体参考：https://www.cnblogs.com/ukiii/p/14637197.html)

#去除停用词(使用spacy进行预处理)
def stopwords(article):
    nlp = spacy.load("zh_core_web_sm")
    stopword = [];lst = [];lst2 = []
    for i in article:
        doc = nlp(i)
        lst.append(