Gensim学习笔记-1--理解corpora.Dictionary

gensim使用python标准的logging包,引入方式为:

import logging
logging.basicConfig(format=’%(asctime)s : %(levelname)s : %(message)s’, level=logging.INFO)

学习任何开源项目首先都要理解其中的专业术语。
gensim中的必须理解的概念有:
1 raw strings 原始字符串
2 corpora 语料库
3 sparse vectors 稀疏向量
4 vector space model 向量空间模型
5 transformation 转换,指由稀疏向量组成的稀疏矩阵生成某个向量空间模型。
6 index 索引
……

要深入理解开源项目的运行原理,需要认真研究其中的核心对象。
1 corpora.Dictionary 对象
可以理解为python中的字典对象, 其Key是字典中的词,其Val是词对应的唯一数值型ID
构造方法

Dictionary(documents=None, prune_at=2000000)

document参数
Each document is a list of tokens = tokenized and normalized strings (either utf8 or unic

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值