NLP自然语言处理
文章平均质量分 63
NLP自然语言处理
<编程路上>
这个作者很懒,什么都没留下…
展开
-
pytorch 之pad_sequence, pack_padded_sequence, pack_sequence, pad_packed_sequence使用
该函数用padding_value来填充一个可变长度的张量列表。将长度较短的序列填充为和最长序列相同的长度。,张量的形状为T × B × ∗。否则,张量的形状为B × T × ∗。包含填充序列的张量的元组,以及包含批次中每个序列的长度列表的张量。函数进行填充的时候,产生了冗余,因此需要对其进行pack。压紧(pack)一个包含可变长度的填充序列的张量,在使用。函数对返回的结果进行填充以恢复为原来的形状。如果 batch_first 是。一句话就是:填充句子到相同长度。原创 2022-10-31 17:29:28 · 608 阅读 · 1 评论 -
自然语言处理 文本数据分析
通过绘制句子长度分布图, 可以得知我们的语料中大部分句子长度的分布范围, 因为模型的输入要求为固定尺寸的张量,合理的长度范围对之后进行句子截断补齐(规范长度)起到关键的指导作用。通过查看正负样本长度散点图, 可以有效定位异常点的出现位置, 帮助我们更准确进行人工语料审查。数据概览: 7000 多条酒店评论数据,5000 多条正向评论,2000 多条负向评论。使用的是hnSentiCorp_htl_all。原创 2022-10-06 11:26:03 · 1479 阅读 · 0 评论 -
word2vec
学习引用word2vec 一词最初用来指程序或者工具,但是随着该词的流行,在某些语境下,也指神经网络的模型。正确地说, CBOW 模型和skip-gram 模型是 word2vec 中使用的两个神经网络。原创 2022-10-05 20:23:17 · 645 阅读 · 0 评论 -
自然语言处理 one-hot编码
劣势:完全割裂了词与词之间的联系,而且在大语料集下,每个向量的长度过大,占据大量内存.优势:操作简单,容易理解.原创 2022-10-05 20:05:23 · 876 阅读 · 0 评论 -
pyhanlp 工具类HanLP基本使用
from pyhanlp import * content = "虽然原始的食材便具有食物原始的风情,云初还是认为," \ "最美味的食物还是需要经过分割,烹调,处置,最后端上桌的食物才是最符合大唐人肠胃的食物。" words = HanLP . extractSummary(content , 1) #提取短语,同时指定摘要的最大长度 print(words)原创 2022-10-05 17:35:52 · 814 阅读 · 1 评论 -
jieba库使用
需要分词的字符串cut_all:是否采⽤全模式(理解全模式与精确模式)HMM:是否采⽤HMM模型(有兴趣的可以进⼀步了解其算法原理)use_paddle:⽤来控制是否使⽤paddle模式下的分词模式,paddle模式采⽤延迟加载⽅式,通过enable_paddle接⼝安装paddlepaddle-tiny,并且import相关代码;返回值为迭代器。原创 2022-10-04 18:42:16 · 793 阅读 · 0 评论