nlp
文章平均质量分 70
keep-hungry
这个作者很懒,什么都没留下…
展开
-
如何计算self-attention中的贡献度 a
对于注意力机制有很多博客都讲过了,也很好理解。但因为要写代码,具体如何计算self-attention 里贡献度比例 a 困扰了我几天。终于明白了,所以写个博客记录一下。参考了https://lonepatient.top/2019/01/09/BERT-self-Attention.html,如果你觉得我写的太简略看不懂,参考这位的博客,他的博客比我写的详尽。下面按计算流程进行梳理:学习WqW^qWq WkW^kWk WvW^vWv三个矩阵||||为什么要学习这三个矩阵呢||\/每原创 2021-09-23 16:59:45 · 225 阅读 · 0 评论 -
文本自动摘要评价方法-金字塔方法
文本自动摘要的评价方法--金字塔方法本质上是一种人工评价方法,其目的是减少人工工作量。金字塔方法衡量内容的忠实度原创 2021-06-23 12:40:18 · 1085 阅读 · 1 评论 -
pytorch 使用BART模型进行中文自动摘要
fine-tune BART模型实现中文自动摘要如何fine-tune BART模型参见系列文章1博文提供了数据集和训练好的模型,自动摘要能够摘要出部分关键信息,但什么时候终止学习的比较差。原创 2021-08-16 21:11:26 · 15571 阅读 · 20 评论 -
R语言 如何绘制文章的词云图——从分词到绘图(it-idf权重)
假设一个最简单的应用场景,有一篇文章,希望能绘制出一个词云图体现文章关键词。新闻来自新浪新闻社会频道扬子晚报(审核人员,这个哪儿违规了!?)https://news.sina.com.cn/s/2020-08-02/doc-iivhuipn6416823.shtml第一步,引用文章文本:text = "text = "原标题:高考430分,选测有一个B+的江苏考生白湘菱最终申请了香港大学,专业意向读金融 在江……"详细文本请自行去原网站获取在绘制词云图之前,需要对文章进行分词首先载入原创 2020-08-02 20:33:20 · 2559 阅读 · 0 评论 -
jieba分词 以列表的形式添加自定义词库
简单记录如何在代码中以列表形式添加自定义词库原创 2021-08-01 21:40:26 · 1632 阅读 · 0 评论 -
三元组事件抽取与简单代码实现
一个简单的示例代码,基于词性的三元组事件抽取。本文代码大多来源于另一位作者的工贡献:,可直接从github获取代码。篇博客主要是描述一下这个项目如何使用(比较多坑)和三个实验对比结果。原创 2021-06-25 12:27:32 · 8320 阅读 · 15 评论 -
如何从大型模型(BART)fine tune一个小模型及代码实现
本文目的是从上游大型模型进行知识蒸馏以应用于下游自动摘要任务,主要总结了自动摘要目前面临的难题,BART模型的原理,与fine tune 模型的原理。对模型fine tune部分进行了代码复现,通过fine tune使得student模型能够在一块8G显存的GPU上进行训练。原创 2021-05-19 01:41:33 · 5930 阅读 · 6 评论 -
基于word2vec和CNN的中文微博情感分类(论文阅读)
分享一篇论文阅读:Deep learning based emotion analysis of microblog texts。该文研究中文微博文本的情感分类问题。其研究目的是:1. 通过组合多种方法,验证CNN+Word2vec比传统方法效率高。2. 证明针对中文社交短文本,做词向量模型的预训练任务时,字符词向量比词语词向量更好。原创 2021-01-30 00:15:54 · 1556 阅读 · 3 评论