![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
NLP自然语言处理
文章平均质量分 65
分享一些自然语言处理的算法模型,和实现代码,和大家一起学习交流
Guapifang
这个作者很懒,什么都没留下…
展开
-
【论文解读】InstructGPT : Training language models to follow instructions with human feedback
InstructGPT做了什么,从论文的摘要来描述是:使语言模型变得更大并不意味着它们本身就能更好地遵循用户的意图。例如,大型语言模型可能会生成不真实、有毒或对用户毫无帮助的输出。换句话说,这些模型与其用户不一致。在本文中,我们展示了一种通过根据人类反馈进行微调,使语言模型与用户在各种任务上的意图保持一致的途径。从一组标记器编写的提示和通过 OpenAI API 提交的提示开始,我们收集了所需模型行为的标记器演示数据集,我们使用该数据集通过监督学习来微调 GPT-3。原创 2023-07-16 17:13:58 · 730 阅读 · 0 评论 -
BERT结构知识整理
BERT结构知识整理1 bert介绍 全称叫Bidirectional Encoder Representation from Transformers,也就是来自于transformer的双向编码表示。bert模型有轻量级和重量级,轻量级是纵向连接了12个transformer的encoder层,重量级是纵向连接了24个transformer的encoder层,注意是transformer的encoder层,没有decoder层。所以模型的内部结构没有很大创新,模型的主要创新点是在预训练任务pre-原创 2021-11-30 21:03:14 · 4225 阅读 · 1 评论 -
知识图谱框架DeepKE简单使用+关系抽取+小小bug修复
一、关系抽取知识图谱里面主要涉及两个很重要的领域:实体识别、关系抽取。当然,一般来说实体识别是关系抽取的前提条件,实体识别是序列标注的一种,通过将语句中的各种词的词性进行标注作为标签放入模型中训练,便可进行识别。当一段话能被识别出具体的实体信息后,我们便可以做关系抽取,关系抽取逻辑也比较简单,最简单是是三元组POI,也即(吴京,战狼,主演)。其中实体head为吴京,实体tail为战狼,关系为主演,那么词性呢?吴京词性是人名,战狼词性是电影名或影视剧名。如何实现的关系抽取,一般训练的数据是带有标签的,比原创 2021-11-05 16:03:17 · 11915 阅读 · 10 评论 -
pytorch搭建transformer进行文本分类训练。
完整工程代码点击这里。原创 2021-10-11 15:25:46 · 2708 阅读 · 0 评论 -
NLP实用小工具Tokenizer和pad_sequences进行文本的数字编码和长度填充或截断
NLP任务中经常需要把词语转换成数字ID,然后又要统一文本长度,不够的填充0,多出的部分需要截断,keras里面自带了这样的功能模块如下。from keras.preprocessing.sequence import pad_sequencesfrom keras.preprocessing.text import Tokenizer具体使用效果如下from keras.preprocessing.sequence import pad_sequencesfrom keras.preproce原创 2021-09-13 08:55:06 · 1285 阅读 · 0 评论