听寒哥的话-CSDN博客

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器#mermaid-svg-gdrix7dapdZoN03t .label{font-fami

2021-12-22 23:16:56 609

原创 NLP算法岗常见面试题梳理

文章目录前言一、Attention相关1. Bahdanau attention2. Luong_attention3. Self_attention4. 其他attention二、Bert相关三、机器学习相关1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、Attention相关attention机制

2021-10-16 19:50:49 1260

原创文本摘要、知识图谱、对话系统项目梳理

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录一. 文本摘要项目1. 项目的业务背景？2. 数据量有多少？是否有标签？打标消耗人力么？3. 最终模型是什么样的？4. pointer Network是如何使用的，有什么作用。3.一、pandas是什么？二、使用步骤1.引入库2.读入数据总结一. 文本摘要项目1. 项目的业务背景？咨诉处理需要多级流转，上级处理人员会将咨诉处理以手工录入文字的方式（通常有10-50字）给下级处理人员。这个步骤通常要占用坐席40s。占平均咨诉处

2021-10-07 11:01:32 803

原创学习笔记之机器翻译和文本摘要4

文章目录一、预训练模型简介1. Transformers简介2. Bert 简介二、预训练模型如何运用在生成类中1. 使用预训练语言模型的权重，微调2. 修改预训练的方式1.引入库2.读入数据总结一、预训练模型简介预训练模型的思路是通过预先使用大量数据对语料进行训练而得到词向量，用于下游任务的方法。常见的预训练模型有基于lstm的和基于transformers-encoder的。前者的代表是Elmo，后者又分为auto-encoder的Bert和auto-agressive的GPT。其中auto-agr

2021-10-04 14:00:51 179

原创学习笔记之机器翻译和文本摘要3

文章目录一、Self-attention二、文本摘要baseline1. 使用Multi-head self attention2. 使用Layer Normilazition3. mask机制4. 引入先验知识三、Pointer Generator Network1. Pointer Network2. Covarage机制一、Self-attentionMulti-head Self-attention的维度变化 head = 8embeding_size =4, seq_len = 2,中间维度

2021-10-02 23:52:47 173

原创学习笔记之机器翻译与文本摘要2

文章目录一、Attention机制1. Banhdanuo_attention2. Luong_attention3. 其他Attention二、评判标准1. BLUE2. ROUGE三、解码优化1.压缩字典2. Beam Search一、Attention机制在机器翻译或者文本翻译的背景下，使用Attention机制的最主要解决的问题是Seq2Seq对于长距离信息的丢失。使用Attention机制和不使用Attention机制的Seq2Seq的区别在于: 前者会使用（加权）每一个时间部的encoder

2021-10-02 19:24:29 191

原创学习笔记之机器翻译与文本摘要1

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、文本摘要简介1、抽取式：2、生成式：二、机器翻译简介三、Seq2Seq简介四、机器翻译实战总结前言生成式模型的应用领域是机器翻译和文本摘要，核心思想使用Seq2Seq的模式解决问题。一、文本摘要简介文本摘要的方法分为抽取式、生成式和压缩式。1、抽取式：传统的抽取式方法有Lead-3(前三个句子)、Page_rank(将句子向量按照类似page_rank的方式设定权重，抽取权重最大的句子）、聚类（将句子向量的质

2021-10-01 11:23:28 350

原创学习笔记之图谱问答

文章目录前言一、实体识别和关系抽取1. NER模型2. AC自动机二、待补充总结前言知识图谱构建好了之后的应用有很多。图谱问答是最常见的应用。一、实体识别和关系抽取实体识别和关系抽取的常见方法有匹配的方式和模型的方式。1. NER模型常见的实体识别方法是是同BIO标注法。基于BERT的实体识别加关系抽取的方法描述如下：假设实体有N个类型，那么BIO标注就有2N+1种可能，对于每个词向量768维都做一个2N+1分类，外面再加一个CRF层增加词与词的依赖性。至此就是实现了实体识别，最后利用CLS

2021-09-21 14:21:21 432

原创 Bert相关常见面试题

文章目录前言一、Bert模型相关1.self-attention中 QKTQK^{T}QKT相乘代表着的是什么？2. self-attention中 QKTQK^{T}QKT相乘后为什么要除以缩放因子dk\sqrt{d_k}dk？3. 如何理解Multi-head attention？4. Bert源码中多头的维度如何变化的？5. Bert是双向模型，双向体现在哪？6. Bert的位置编码和transformers的位置编码一样么?二、Bert变种相关1. Masked Language Model.

2021-09-20 11:59:57 1917