- NLP -
文章平均质量分 90
夏天|여름이다
人工智能研究员,致力于计算机视觉,自然语言处理,语音处理,多模态模型,强化学习等相关研究。
展开
-
LLM | Gemma的初体验
一起来体验一下吧~此型号卡对应于 Gemma 型号的 7B 指令版本。原创 2024-03-06 16:56:08 · 1330 阅读 · 0 评论 -
LLM | GPT-NEOX论文详解
GPT-NEOX使用旋转位置编码。模型权重使用float16表示。最大序列长度为2048。论文题目:2022.04.14_GPT-NeoX-20B: An Open-Source Autoregressive Language Model。原创 2024-03-06 13:39:48 · 1492 阅读 · 0 评论 -
LLM | 一些开源的AI代码生成模型调研及总结【20240130更新】
本文主要介绍主流代码生成模型,总结了基于代码生成的开源大语言模型,按照时间顺序排列。原创 2024-01-30 09:35:20 · 2640 阅读 · 0 评论 -
LLM | 一文了解大语言模型中的参数高效微调(PEFT)
PEFT(参数高效微调)通过有针对性的系数调整来减少大型语言模型的计算和内存需求。LoRA(低秩采用)选择重要系数,而量化通过将高精度系数转换为较低精度的形式来减少内存使用,这两者在 PEFT 中都至关重要。使用 PEFT 微调 LLM 涉及结构化数据准备、库设置、模型选择、PEFT 配置、量化选择以及对训练和验证损失的监控,以平衡效率和模型性能。原创 2023-12-04 09:21:19 · 2703 阅读 · 1 评论 -
LLM | 一文搞懂Langchain的概念,相关组件,以及大模型微调~
本文主要介绍了Langchain的概念,相关组件,以及大模型微调代码实现等~原创 2023-12-03 14:27:05 · 3066 阅读 · 1 评论 -
LLM | A Technical Report for Polyglot-Ko: Open-Source Large-Scale Korean Language Models论文详解
尽管 mBERT、BLOOM、XGLM 等多语言语言模型已经发布,但使用非英语语言的研究人员仍在追求单语模型。这是因为公开的模型的训练数据偏向于英语,在非英语语言任务上表现不佳。使用韩国数据进行预训练的 Polyglot-ko 模型,在通过各种预处理方法处理了 TUNiB 收集的 1.2TB 韩国数据后进行了预训练。只是一份报告,所以并没有什么创新点。训练环境建议:4台RTX3090(4090/A5000)原创 2023-11-28 08:23:07 · 893 阅读 · 0 评论 -
NLP | SimKGC论文详解及项目实现
本文主要讲解了论文SimKGC:基于预训练语言模型的简单对比KGC的论文总结以及项目实现。论文题目:2022_SimKGC: Simple Contrastive Knowledge Graph Completion with Pre-trained Language Models。原创 2023-11-20 15:19:45 · 816 阅读 · 1 评论 -
多模态 | 多模态中单模态中提取特征方法(代码)
在多模态任务中,有一种方法时在单模态中先各自提取各模态的特征,然后进行融合,本文主要实现各模态特征的提取。原创 2023-05-02 09:59:57 · 1697 阅读 · 0 评论 -
NLP | SentenceTransformer将句子进行编码并计算句子语义相似度
Sentence Transformer是一个Python框架,用于句子、文本和图像嵌入Embedding。这个框架计算超过100种语言的句子或文本嵌入。然后,这些嵌入可以进行比较,例如与余弦相似度进行比较,以找到具有相似含义的句子,这对于语义文本相似、语义搜索或释义挖掘非常有用。该框架基于PyTorch和Transformer,并提供了大量预训练的模型集合,用于各种任务,此外,很容易微调自己的模型。如果没有的话,利用pip安装如果是conda的虚拟环境时,可以使用以下命令安装句子转换器。原创 2023-04-03 12:45:29 · 4895 阅读 · 1 评论 -
NLP | 打造一个‘OpenAI智能’机器人,只需要五分钟
借用openai api,做一个聊天机器人,别去openai主页啦~原创 2023-01-25 18:42:08 · 10764 阅读 · 9 评论 -
Docker | 利用远程服务器Linux,创建一个pytorch的容器,下载GitHub上的文件并实现Layout2img项目运行(Step-by-step)
本文通过MobaXterm登录到Linux服务器上操作:(docker 容器的创建,前提是已经安装好docker并处于运行状态,可通过docker ps命令查看docker是否运行)提示脚本文件内运行不了wget(Linux从网页下载文件命令),unzip(Linux解压zip文件命令)接着下载github上的项目(在win10上看好GitHub的项目,例如我的是layout2img)想要查看并修改文件,因为是新创建的容器,所以没有这些相关库,所以全部重新安装。创建容器后直接进入docker 容器内。原创 2022-12-30 19:23:54 · 684 阅读 · 0 评论 -
环境配置 | 有关NLP的库安装学习使用示例,原理解释及出错解析
Python和Cython中的高级自然语言处理库,它建立在最新的研究基础之上,从一开始就设计用于实际产品。spaCy带有预先训练的统计模型和单词向量,目前支持。它具有世界上速度最快的句法分析器,用于标签的卷积神经网络模型,解析和命名实体识别以及与深度学习整合。它是在MIT许可下发布的商业开源软件。【1】原创 2022-11-11 18:50:03 · 1435 阅读 · 0 评论 -
NLP | XLNet :用于语言理解的广义自回归预训练 论文详解
XLNet使用了一种排列的自回归预训练方法。原创 2022-11-09 22:18:26 · 800 阅读 · 0 评论 -
论文篇 | 基于深度学习的机器翻译论文总汇
长期以来,人们一直认为人类翻译的质量对于计算机翻译系统来说是无法实现的。在这项研究中,我们提出了一个深度学习系统CUBBITT,它挑战了这一观点。在人类法官的上下文感知盲测评估中,CUBBITT在保留文本含义(翻译充分性)方面显着优于专业机构的英语到捷克语新闻翻译。虽然人工翻译仍然被评为更流畅,但CUBBIT被证明比以前最先进的系统更流畅。此外,翻译图灵测试的大多数参与者都很难将CUBBITT翻译与人工翻译区分开来。这项工作接近人工翻译的质量,甚至在某些情况下充分超越了它。原创 2022-10-25 01:41:57 · 3256 阅读 · 0 评论 -
NLP | 自然语言处理经典seq2seq网络BERT详解及代码
BERT 是 Transformers 双向编码器表示的缩写,是一种用于自然语言处理的机器学习 (ML) 模型。它由 Google AI Language 的研究人员于 2018 年开发,是 11 种以上最常见语言任务的瑞士军刀解决方案,例如情感分析和命名实体识别。从历史上看,计算机很难“理解”语言。当然,计算机可以收集、存储和读取文本输入,但它们缺乏基本的语言上下文。因此,出现了自然语言处理 (NLP):人工智能领域,旨在让计算机从文本和口语中读取、分析、解释和获取含义。原创 2022-10-23 19:23:08 · 977 阅读 · 0 评论 -
NLP | Transformer 中的关键知识点附代码
Transformer是seq2seq的模型,也就是数据有顺序,输出的是序列。本文主要结合代码理解Transformer。原创 2022-10-21 18:57:17 · 766 阅读 · 0 评论 -
NLP | 注意力机制Attention Mechannism图文详解及代码
Attention 机制彻底改变了创建 NLP 模型的方式,目前是大多数最先进的 NLP 模型中的标准装置。这是因为它使模型能够强调输入中的所有单词,并在制定响应时专注于特定单词。原创 2022-10-20 15:35:57 · 2324 阅读 · 0 评论 -
NLP | Seq2Seq,Encoder-Decoder图文详解及代码
在本文中,概述序列到序列模型,这些模型在机器翻译,视频字幕,图像字幕,问答等不同任务中使用。原创 2022-10-19 21:23:02 · 2220 阅读 · 0 评论 -
NLP | textCNN &textRNN 图文详解及代码
textCNN &textRNN主要是做。文本分类是自然语言处理的一项基本任务,试图推断给定文本(句子、文档等)的标签或标签集。原创 2022-10-18 19:04:18 · 1617 阅读 · 0 评论 -
NLP | GloVe(带有全局向量的词嵌入) 图文详解及代码
可以使用全局语料库统计信息(例如词-词共现计数)来解释 skip-gram 模型。交叉熵损失可能不是衡量两个概率分布差异的好选择,尤其是对于大型语料库。GloVe 使用平方损失来拟合预先计算的全局语料库统计数据。对于 GloVe 中的任何单词,中心词向量和上下文词向量在数学上是等价的。GloVe 可以从词-词共现概率的比率来解释。原创 2022-10-18 16:35:11 · 6561 阅读 · 0 评论 -
NLP | fastText 图文详解及代码
1.词汇表外 (Out Of Vecabulary:OOV) 问题fastText 是一种新的嵌入方法,它在 Word2Vec 方法中添加了基于拼写的嵌入方法。这种方法是 Word2Vec 的一个限制,即无法对现有语料库中不存在的单词进行向量化。word2vec请参考CBOW的思路是用上下文词语来预测当前词,从而拿到模型最终的W矩阵得到词向量,而Fasttext的思路是使用模型进行文本分类操作。原创 2022-10-17 15:41:25 · 619 阅读 · 0 评论 -
数据集 | NLP中的常见数据集
该数据集(虽然相对较小)在数千部电影中拥有超过25,000条评论,是二元情绪分类用例的完美数据集。:虽然此数据集可能稍旧,但它具有各种各样的亚马逊产品及其相应的评论。:这个数据集非常适合训练一个模型,以便在10,000多篇烂番茄评论中使用更长的短语来识别情绪。:这个受欢迎的数据集拥有超过160,000条推文,在6个字段中进行了格式化,包括推文数据,查询,文本,极性,ID和用户。:这个 2015 年的数据集包含与美国航空公司相关的已分类推文(正面、中立、负面)。原创 2022-10-18 14:40:34 · 2833 阅读 · 0 评论 -
NLP | word2vec图文详解及代码
在一个常规的 one-hot 编码向量中,所有单词之间的距离都相同,即使它们的含义完全不同,丢了编码中的位置信息使用 Word2Vec 等词嵌入方法,生成的向量可以更好地维护上下文。例如,猫和狗比鱼和鲨鱼更相似。Word2vec 是一个两层神经网络,通过“向量化”单词来处理文本。它的,它的:表示该语料库中单词的特征向量。虽然 Word2vec 不是,但它将文本转换为深度神经网络可以理解的数字形式。词嵌入(word Embeding)词嵌入是一种将单个词转换为词的数字表示(向量)的技术。原创 2022-10-15 16:16:48 · 3029 阅读 · 0 评论