![](https://img-blog.csdnimg.cn/20190918140037908.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
NLP
文章平均质量分 59
跟随项目学习自然语言处理,关系大的小的都在学。
hhy不许摸鱼
这个作者很懒,什么都没留下…
展开
-
预训练Bert添加new token的问题
最近遇到使用transformers的AutoTokenizer的时候,修改vocab.txt中的[unused1]依然无法识别相应的new token。我将[unused1]修改为了[TRI],句子中的[TRI]并没有被整体识别,而是识别为了[,T,RI,]。所以可以认定,Bert对带有方括号的token统一按special token处理,所以要使用。若去掉[TRI]的方括号,问题就消失了。来添加此类token。原创 2023-09-04 10:28:44 · 748 阅读 · 0 评论 -
【Datawhale 科大讯飞-基于论文摘要的文本分类与关键词抽取挑战赛】机器学习方法baseline
计算出每个词的 TF-IDF 值后,使用 TF-IDF 计算得到的数值向量替代原文本即可实现基于 TF-IDF 的文本特征提取。这里将对应的文本token转化为vector,方便后面进行计算,这里的CountVectorizer()使用的是BOW模型,所以编码后的维度应该是词表的大小。IDF 指 inverse document frequence,即逆文档频率,指包含某个词的文档数占语料库总文档数的比例。当然这还没完,之前的CountVectorizer()是基于BOW模型的。结果也会有显而易见的提高。原创 2023-08-17 01:07:38 · 294 阅读 · 0 评论 -
使用Bert预训练模型处理序列推荐任务
最近的工作有涉及该任务,整理一下思路以及代码细节。原创 2023-08-06 01:36:20 · 913 阅读 · 0 评论 -
在LLM的支持下使游戏NPC具有记忆化的方法
更理想的回答需要智能体从Klaus在研究项目上花费的时间的记忆中进行泛化,生成一个更高层次的反思,即Klaus对研究充满热情,同时也能够认识到Maria在自己的研究中付出了努力(尽管在不同的领域),从而产生一个反思,即他们有共同的兴趣爱好。这种行为的基础是一种新颖的智能体架构,它将一个大型语言模型与合成和检索相关信息的机制相结合,以在语言模型的输出上进行条件控制。因为LLM的输入tokens是有限制的,所以伴随着问题的记忆context是有窗口大小限制的,将所有的记忆输入LLM并不现实。原创 2023-07-18 22:17:29 · 1459 阅读 · 0 评论 -
使用Hugging Face预训练Bert处理下游任务显存占用过多
具体的方法进入https://huggingface.co/huawei-noah/TinyBERT_General_4L_312D/tree/main链接中,download其中的model参数,以及词典表、config。在使用HuggingFace的transformer下的BertForMaskedLM进行预训练语言模型的load时,bert会占用很大的显存。这里可以考虑使用TinyBERT,速度和显存上都能得到很大的优化。在load模型时load这些文件就可以了。原创 2023-07-14 22:07:34 · 906 阅读 · 0 评论 -
加载Bert预训练模型时报错:huggingface_hub.utils._validators.HFValidationError
很简单,我download下来的代码没有并没有模型参数的文件,所以去。里面放的是模型参数文件所在的文件夹而不是文件本身。下载然后放到文件夹里就好了。原创 2023-07-01 00:02:27 · 5112 阅读 · 6 评论 -
GraphTrip论文笔记【Information Fusion 92 (2023)】
GraphTrip论文笔记原创 2023-02-20 12:23:12 · 688 阅读 · 2 评论 -
An Attentional Recurrent Neural Networkfor Personalized Next Location Recommendation【ARNN】代码复现反思
title: ARNN复现反思date: 2022-04-26 22:37:56tags: NLP的一些收获因为找遍了一二三四作,都没有能得到An Attentional Recurrent Neural Networkfor Personalized Next Location Recommendation这篇论文的代码,一作没反应,二三四都让我找一作…麻了,所以硬下头皮准备复现。其实任务量还好,最幸运的是这篇论文的模型架构与另外一篇DeepMove的模型十分相似,都是先embedding序列后.原创 2022-04-27 00:00:34 · 569 阅读 · 0 评论 -
Meta Path Based Random Walk复现思路【基于元路径的随机游走模型】
title: Meta Path Based Random Walkdate: 2022-02-13 00:43:08tags: NLP的一些收获课题原因需要复现ARNN模型。即“An Attentional Recurrent Neural Networkfor Personalized Next Location Recommendation”这篇论文,早就听说随机游走模型以及PageRank之类的算法,现在算是自己动手复现了,因为其中需要使用随机游走来获得每个POI的neighbors,从而训.原创 2022-02-13 02:24:48 · 1788 阅读 · 0 评论 -
一种机器翻译的评估方法 BLEU
title: BLEUdate: 2021-08-17 18:23:27tags: NLP的一些收获论文链接 BLEU: a Method for Automatic Evaluation of Machine Translation首先给出一组reference和candidate:Candidate1:It is a guide to action which ensures that the military always obeys the commands of the party..原创 2022-01-27 21:24:50 · 1167 阅读 · 0 评论 -
RNN理解
RNNrnn即循环神经网络,给模型一个记忆的功能,每一个status的输出都与前面所有的输入有关。原创 2021-04-22 23:38:54 · 143 阅读 · 0 评论 -
关于卷积核多通道输出的理解(基于dive into DL pytorch)
理解如图所示如题原创 2021-04-10 20:03:36 · 233 阅读 · 0 评论 -
TransE理解与实现
(依附于博主yuanwyue代码https://blog.csdn.net/shunaoxi2313/article/details/89766467)理解如下图附上那位博主的代码自己加了一些有没有的注释帮助理解import codecsimport randomimport mathimport numpy as npimport copyimport timeentity2id = {}relation2id = {}def data_loader(file):原创 2021-04-01 00:30:19 · 951 阅读 · 2 评论 -
Pytorch实现逻辑回归demo
关于Logistic Regression逻辑回归简单来说,就是对于一组几维的数据,每个数据对应着一个类别,这里用yyy表示。用于训练,然后目的是对于一组多维的输入能够预测其类别yyy实现方法步骤大致与Linear Regression类似,深层原理不再赘述。注意在分类问题中使用的是Cross-Entropy Loss Function,为什么,因为如果使用Quadratic Loss Function的话会让拟合的标准过于严格,因为要让一组数据属于某一类并不需要其与target一模一样,只需其属于原创 2021-03-25 20:41:18 · 205 阅读 · 0 评论 -
Pytorch实现线性回归demo
关于线性回归即对于几组input和target的值用模型进行线性的拟合。比如对于房子的不同地理位置大小等因素决定的房价。线性的模型就是对于一组input输入得出与target相近的out。过程较为普式的把输入对象的属性整合为一组集合[x1j,x2j,x3j,...,xnj][x_1^j,x_2^j,x_3^j,...,x_n^j][x1j,x2j,x3j,...,xnj],对应的target为yjy^jyj。然后对于一个jjj给出预测的out(target的prediction):hθ(x原创 2021-03-23 19:52:44 · 287 阅读 · 0 评论 -
关于损失函数的概率表示初识
损失函数损失函数是一个非负实数函数,用来量化模型预测和真实标签之间的差异.下面介绍几种常用的损失函数.0-1损失函数(0-1LossFunction)最直观的损失函数是模型在训练集上的错误率,即0-1损失函数L(y,f(x;θ))={0if y=f(x;θ)1if y≠f(x;θ)=I(y≠f(x;θ))L(y,f(x; \theta)) = \left\{\begin{matrix}0 & if ~y = f(x; \theta) \\ 1 & if ~y原创 2021-03-19 16:23:31 · 725 阅读 · 0 评论 -
word2vec理解归纳(方法概览)
word2vec理解归纳(方法概览)训练的原因最早的词向量使用哑编码,也就是one-hot representation,它是以语料库的大小为维度的,对于每一个单词,它的出现体现在它的向量中的一个元素上。但是用这样的向量进行训练和计算,会由于语料的庞大而效率低下。这也是它的问题所在,造成维度灾难。于是就提出了词的分布式表示即distributed representation。也就是认为规定一个维度 kkk,通过一个权重矩阵 WWW(length(sentence)×Klength(sentence)原创 2021-03-12 19:58:59 · 143 阅读 · 0 评论 -
Sougou语料库word2vec训练demo
Sougou语料库word2vec训练demo文章参考:https://www.cnblogs.com/Newsteinwell/p/6034747.html利用jieba对中文语料库进行分词这里首先将Sougou中的语料库进行解压,对解压后的dat文件cat news_sohusite_xml.dat | iconv -f gbk -t utf-8 -c | grep "<content>" > sougou.txt提取出<conten>内的文本再使用jieba对原创 2021-03-07 00:57:05 · 582 阅读 · 0 评论