文档信息的向量化-词袋模型、gensim实现和词条分布

最新推荐文章于 2023-08-11 08:35:15 发布

IT之一小佬

最新推荐文章于 2023-08-11 08:35:15 发布

阅读量365

点赞数

分类专栏：文本挖掘/NLP 文章标签：自然语言处理数据挖掘 nlp 人工智能深度学习

本文链接：https://blog.csdn.net/weixin_44799217/article/details/115286681

版权

文本挖掘/NLP 专栏收录该内容

21 篇文章 4 订阅

订阅专栏

文档信息的向量化-词袋模型、gensim实现和词条分布

from gensim import corpora
texts = [['human', 'interface', 'computer']]
#  fit dictionary
dct = corpora.Dictionary(texts) 
print(dct.token2id)

通过.属性来使用

from gensim import corpora
texts = [['human', 'interface', 'computer']]
#  fit dictionary
dct = corpora.Dictionary(texts) 
print(dct.token2id)
#  向词典增加词条
dct.add_documents([['cat', 'say', 'meow'], ['dog']])
print(dct.token2id)

from gensim import corpora
texts = [['human', 'interface', 'computer']]
#  fit dictionary
dct = corpora.Dictionary(texts) 
print(dct.token2id)
#  向词典增加词条
dct.add_documents([['cat', 'say', 'meow'], ['dog']])
print(dct.token2id)
obj1 = dct.doc2bow(['this', 'is', 'cat', 'not', 'a', 'dog'])
print(obj1)
obj2 = dct.doc2bow(['this', 'is', 'cat', 'not', 'a', 'dog'], return_missing=True)
print(obj2)

from gensim import corpora
texts = [['human', 'interface', 'computer']]
#  fit dictionary
dct = corpora.Dictionary(texts) 
print(dct.token2id)
#  向词典增加词条
dct.add_documents([['cat', 'say', 'meow'], ['dog']])
print(dct.token2id)
obj1 = dct.doc2bow(['this', 'is', 'cat', 'not', 'a', 'dog'])
print(obj1)
obj2 = dct.doc2bow(['this', 'is', 'cat', 'not', 'a', 'dog'], return_missing=True)
print(obj2)
obj3 = dct.doc2idx(['this', 'is', 'a', 'dog', 'not', 'cat'])
print(obj3)

import pandas as pd
import jieba
#  设定分词以及清楚停用词函数
#  熟悉python的话，可以直接使用open('stopword.txt').readlines() 获取停用词list，效率会更高
stoplist = list(pd.read_csv('../data/停用词.txt', names=['w'], sep='aaa', encoding='utf-8').w)

def m_cut(text):
    return [word for word in jieba.cut(text) if word not in stoplist and len(word) > 1]

#  设定数据库转换函数
def m_appdf(chapnum):
    tmpdf = pd.DataFrame(m_cut(chapter.txt[chapnum + 1]), columns=['word'])
    tmpdf['chap'] = chapter.index[chapnum]
    return tmpdf

#  全部读入并存入数据框
df0 = pd.DataFrame(columns=['word', 'chap'])  # 初始化结果数据框
for i in range(len(chapter)):
    df0 = df0.append(m_appdf(i))
df0.head()

#  输出为序列格式
df0.groupby(['word', 'chap']).agg('size').tail(10)

#  直接输出为数据框
t2d = pd.crosstab(df0.word, df0.chap)
t2d

#  计算词条出现的总频率，准备进行低频词的删除
totnum = t2d.agg(func='sum', axis=1)
totnum

totclear = t2d.iloc[list(totnum >= 10)]
totclear

IT之一小佬

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
文档信息的向量化-词袋模型、gensim实现和词条分布

文档信息的向量化
复制链接

扫一扫

专栏目录

文档信息的向量化-词袋模型、gensim实现和词条分布

文档信息的向量化-词袋模型、gensim实现和词条分布

“相关推荐”对你有帮助么？