前言
参考文献:胡盼盼编著. 自然语言处理从入门到实战[M]. 中国铁道出版社, 2020.
最近在学习文本表示的一种最简单方式——词袋模型,书中给出了使用gensim生成词袋模型的代码,原代码就来自于这本书,我加了一些注释,方便理解代码。
一、引入库
from gensim.models import TfidfModel
from gensim.corpora import Dictionary
import jieba
二、准备数据
raw_texts = ['你站在桥上看风景','看风景的人在楼上看你',