使用spacy(数据预处理)和自定义的tf-idf函数进行句向量化

本文介绍如何使用spacy进行数据预处理,并基于TF-IDF算法编写自定义函数对新闻文本进行句向量化。通过计算每个单词的TF-IDF值,最后将结果保存为txt文件。
摘要由CSDN通过智能技术生成

本次实验将根据tf-idf的计算方法编写一个自定义的计算tf-idf的方法,对新闻文本数据进行句向量化。具体编写思路如下图所示:
在这里插入图片描述

题目要求:

  • 根据tf-idf的计算方法编写一个自定义的计算tf-idf的方法(推荐包装成函数或者类),使用公式可以在pdf中进行说明;
  • 使用文本数据的test.txt(每一行为一条新闻数据),使用spacy(数据预处理)和自定义的tf-idf函数(词袋模型)句向量化(输出结果可以自定义结构,但需要在pdf中进行说明),并输出成resut.txt提交。

一、导入包

导入本次实验需要用的包。

import spacy
import math
from collections import Counter

二、导入文件

  1. 使用with open()方法打开新闻文本文件。
def file(path):
    with open(path,'r',encoding='UTF-8') as fp:
        data = fp.readlines()
    return data
  1. 导入后的新闻文本如下:
    在这里插入图片描述
  2. 从上图可以看到,以每一行为一条新闻数据来划分的话,这里一共划分出了85个新闻数据文档。

三、使用spacy进行数据预处理

  1. 根据spacy自带的停词库,对每一个新闻数据文档进行分词。
    (具体参考:https://www.cnblogs.com/ukiii/p/14637197.html)
#去除停用词(使用spacy进行预处理)
def stopwords(article):
    nlp = spacy.load("zh_core_web_sm")
    stopword = [];lst = [];lst2 = []
    for i in article:
        doc = nlp(i)
        lst.append(
  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值