Doc2Vec Model （三）参数说明

最新推荐文章于 2023-10-19 11:52:38 发布

桃子小迷妹

最新推荐文章于 2023-10-19 11:52:38 发布

阅读量1.3k

点赞数 2

分类专栏： Python Linux（Ubuntu）机器学习

本文链接：https://blog.csdn.net/weixin_43846270/article/details/109442285

版权

Python 同时被 3 个专栏收录

109 篇文章 1 订阅

订阅专栏

Linux（Ubuntu）

109 篇文章 3 订阅

订阅专栏

机器学习

4 篇文章 0 订阅

订阅专栏

Doc2Vec 参数说明 Parameters

class gensim.models.doc2vec.Doc2Vec(documents=None, corpus_file=None, vector_size=100, dm_mean=None, dm=1, 
dbow_words=0, dm_concat=0, dm_tag_count=1, dv=None, dv_mapfile=None, comment=None, trim_rule=None, 
callbacks=(), window=5, epochs=10, **kwargs)

documents：(iterable of list of TaggedDocument，optional） - 输入语料库，可以是一个简单的元素列表，但是对于更大的语料库，可以考虑一个可迭代的直接从磁盘/网络流式传输的 $d o c u m e n t s$ 。如果不提供 $d o c u m e n t s$ （或者语料库文件），模型将保持未初始化状态-你计划用其他的方式初始化该模型
corpus_file：（str, optional）- LineSentence格式语料库的路径。可以使用该参数替换 $d o c u m e n t s$ 来提高性能。只需要传递一个 $d o c u m e n t s$ 或者 $corpus\_files$ 参数（或者都没有，在这种情况下，模型将保持未初始化状态）。 $d o c u m e n t s$ 的 $t a g s$ 是自动分配的，并等于行号，如 TaggedDocument。
dm：({1,0},optional) - 定义训练算法。如果 dm =1，使用 $distributed\ memory$ (PV-DM)。否则，则使用 $distributed\ bag\ of\ words$ (PV-DBOW) 。
vector_size： (int, optional) - 特征向量的维数。
window:：(int, optional) - 句子中当前单词和预测单词之间的最大距离。
alpha： (float, optional) - 初始学习速率。
min_alpha ： (float, optional) - 随着训练的进行，学习速率将线性下降至 $min\_alpha$ 。
seed： (int, optional) - 随机数生成器的种子。每个单词的初始向量使用 $w o r d +$ str(seed)的连接哈希进行种子播种。注意，对于完全确定的可重复运行，还必须将模型限制为单个工作线程(workers=1)，从操作系统线程调度中消除排序抖动。在 $P y t h o n 3$ 中，解释器启动之间的再现性还需要使用 PYTHONHASHSEED环境变量来控制散列随机化。
min_count：(int, optional) - 忽略总频率低于此值的所有单词。
max_vocab_size：(int, optional) - 在词汇构建过程中限制 $R A M$ ；如果有比这个更独特的单词，那么删掉不常见的单词。每1000万字类型需要大约1GB的内存。如果没有限制，则设置为 None。
sample：(float, optional) - 配置高频字随机下采样的阈值，有效范围是 $(0 ， 1 e - 5)$ 。\
workers：(int, optional) - 使用多个工作线程来训练模型（=使用多核机器进行更快的训练）。
epochs：(int, optional) - 语料库上的迭代次数（ $e p o c h s$ ）。
hs：({1,0}, optional) - 如果为1，则将使用 $hierarchical\ softmax$ 进行模型训练。
如果设置为0，并且negative 为非零，则将使用负采样。
negative：(int, optional) - 如果大于0，将使用负采样，负的常数指定应绘制多少个“噪声字”（通常在5-20之间）。
如果设置为0，则不使用负采样。
ns_exponent：(float, optional) - 用于形成负采样分布的指数。值1.0与频率完全成比例采样，0.0平均采样所有单词，而负值采样低频单词多于高频单词。最流行的默认值0.75是由Word2Vec的原始文件选择的。最近，在Word2Vec applied to Recommendation: Hyperparameters Matter中Caselles Dupré、Lesaint和Royo Letelier建议，对于推荐应用程序，其他值可能表现更好。
dm_mean：({1,0}, optional) - 如果为0，则使用上下文单词向量的和。如果为1，则使用平均数。dm只是在非串联模式下使用。
dm_concat：({1,0}, optional) - 如果为1，则使用上下文向量的连接，而不是 $s u m / a v e r a g e$ ；请注意，连接会导致更大的模型，因为输入不再是一个（采样或算术组合）词向量的大小，而是标签和上下文中串在一起的所有单词的大小。
dm_tag_count：(int, optional) - 使用dm_uconcat模式时，每个文档的文档标记的数量应为常量。
dbow_words：({1,0}, optional) - 如果设置为1，则与 $DBOW\ doc\ vector$ 同时训练单词向量（以 $skip\ gram$ 方式）；如果设置为0，则只训练doc向量（更快）。
trim_rule：(function, optional) - 词汇表修剪规则，指定特定单词是应该保留还是删除，或者使用默认值（如果单词计数< min_count，则删除）。可以是None，（将使用min_count, 在keep_vocab_item()中查找），或者接收参数(word, count, min_count)
并且返回gensim.utils.RULE_DISCARD，gensim.utils.RULE_KEEP，或者gensim.utils.RULE_DEFAULT。该规则（如果给定）仅用于在当前方法调用期间修剪词汇表，而不是作为模型的一部分存储。
输入参数有以下类型：
- word (str) - 正在研究的单词
- count (int) - 语料库中单词的频率计数
- min_count (int) - 最小计数阈值
callbacks ：训练期间需要在特定阶段执行/运行的回调列表。

桃子小迷妹

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
Doc2Vec Model （三）参数说明

Doc2Vec 参数说明 Parametersclass gensim.models.doc2vec.Doc2Vec(documents=None, corpus_file=None, vector_size=100, dm_mean=None, dm=1, dbow_words=0, dm_concat=0, dm_tag_count=1, dv=None, dv_mapfile=None, comment=None, trim_rule=None, callbacks=(), window=5,
复制链接

扫一扫