NLP
文章平均质量分 85
致Great
为将之道,当先治心
展开
-
【GoMate框架案例】讯飞大模型RAG智能问答挑战赛top10 Baseline
【RAG框架】GoMate:RAG Framework within Reliable input,Trusted output【项目链接】:https://github.com/gomate-community/GoMate。原创 2024-09-10 16:24:29 · 596 阅读 · 0 评论 -
【保姆级教程】如何在Win11上搭建一个GPU环境
然后添加环境变量,鼠标右键此电脑 => 属性 => 高级系统设置 => 环境变量,将CUDA的安装目录添加到CUDA_PATH变量中。:https://developer.nvidia.com/cuda-downloads,图片下载的是。默认情况下,安装的 Linux 分发版为 Ubuntu。我们将文件夹覆盖到上面的CUDA安装目录下,比如我的CUDA的安装目录是。,将压缩包内对应的文件夹复制到bin、include、lib目录下即可。将 替换为要安装的发行版的名称。,能够正确显示各种信息就安装完成了。原创 2024-09-03 22:06:26 · 477 阅读 · 2 评论 -
【RAG数据集】中文信息检索数据集整合
信息检索数据集原创 2024-09-02 10:44:35 · 565 阅读 · 0 评论 -
RLHF 和 DPO:简化和增强语言模型的微调
人类反馈强化学习 (RLHF) 是人工智能领域的一种前沿方法,它利用人类偏好和指导来训练和改进机器学习模型。RLHF的核心是一种机器学习范式,它结合了强化学习和监督学习的元素,使人工智能系统能够以更加人性化的方式学习和做出决策。RLHF的重要性在于它有可能解决人工智能中的一些基本挑战,例如需要模型来理解和尊重人类的价值观和偏好。传统的强化学习模型通过与环境交互产生的奖励来学习,而 RLHF 则不同,它引入了人类反馈作为宝贵的指导来源。原创 2024-01-16 22:30:16 · 2642 阅读 · 0 评论 -
【LLM系列之指令微调】长话短说大模型指令微调的“Prompt”
或者有继续微调比较合适的方案也可以,不损失之前模型的效果(或者损失比较小),目前可以尝试Lora或者Qlora的方式微调底座模型,然后将训练好的Lora权重合并到原始模型,这样可以减轻多次微调对模型的影响。之前推理的时候,发现不加训练的时候prompt,直接输入模型性能会变差的,这个倒是可以理解。(3)另外通过实验发现,如果模型微调的时候使用模板,那么推理的时候应该也使用模板,否则效果会影响,直观上就是生成效果不理想,生成比较短,甚至“驴唇不对马嘴”;那高质量如何定义呢?和alpaca模板差不多。原创 2023-07-31 22:31:39 · 3082 阅读 · 0 评论 -
大模型评测平台OpenCompass
OpenCompass 是面向大模型评测的一站式平台。开源可复现:提供公平、公开、可复现的大模型评测方案全面的能力维度:五大维度设计,提供 50+ 个数据集约 30 万题的的模型评测方案,全面评估模型能力丰富的模型支持:已支持 20+ HuggingFace 及 API 模型分布式高效评测:一行命令实现任务分割和分布式评测,数小时即可完成千亿模型全量评测多样化评测范式:支持零样本、小样本及思维链评测,结合标准型或对话型提示词模板,轻松激发各种模型最大性能灵活化拓展:想增加新模型或数据集?原创 2023-07-21 13:26:06 · 2025 阅读 · 0 评论 -
【LLM系列之BLOOM】BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
预训练语言模型已经成为了现代自然语言处理pipeline中的基石,因为其在少量的标注数据上产生更好的结果。随着ELMo、ULMFiT、GPT和BERT的开发,使用预训练模型在下游任务上微调的范式被广泛使用。随后发现预训练语言模型在没有任何额外训练的情况下任务能执行有用的任务,进一步证明了其实用性。此外,根据经验观察,语言模型的性能随着模型的增大而增加(有时是可预测的,有时是突然的),这也导致了模型规模越来越多的趋势。抛开环境的问题,训练大语言模型(LLM)的代价仅有资源丰富的组织可以负担的起。原创 2023-05-16 23:27:55 · 770 阅读 · 0 评论 -
【LLM系列之LLaMA】LLaMA: Open and Efficient Foundation Language Models
LLaMA 是 Meta AI 发布的包含 7B、13B、33B 和 65B 四种参数规模的基础语言模型集合,LLaMA-13B 仅以 1/10 规模的参数在多数的 benchmarks 上性能优于 GPT-3(175B),LLaMA-65B 与业内最好的模型 Chinchilla-70B 和 PaLM-540B 比较也具有竞争力。开源一系列语言模型,可以与SOTA模型竞争LLaMA-13B比GPT-3的性能更好,但是模型大小却是十分之一。原创 2023-05-15 14:40:24 · 1035 阅读 · 0 评论 -
【LLM系列之GLM】GLM: General Language Model Pretraining with Autoregressive Blank Infilling
目前,已经有各种类型的预训练架构,包括自编码模型(例如BERT),自回归模型(例如GPT)和编码器-解码器模型(例如T5)。然而,没有一个预训练框架对三个主要类别的所有任务(自然语言理解(NLU),无条件生成和有条件生成)都表现最佳。提出了一种基于自回归空白填充的通用语言模型(GLM)来应对上述三种任务。GLM通过添加2D位置编码并允许任意顺序预测跨度来改进空白填充预训练,从而在NLU任务上比BERT和T5获得了性能提升。通过变化空白数量和长度,可以针对不同类型的任务对GLM进行预训练。原创 2023-05-14 23:46:32 · 1299 阅读 · 0 评论 -
【LLM系列之PaLM】PaLM: Scaling Language Modeling with Pathways
PaLM 540B 在 1-shot 设置的 29 个任务中的 24 个和在 few-shot 设置的 29 个任务中的 28 个任务上优于之前的 SOTA。总体来说,该程序包含用于 pod 内前向+反向计算(包括 pod 内梯度减少)的组件 A,用于跨 pod 梯度传输的传输子图,以及用于优化器更新的组件 B(包括本地和远程梯度的求和) ).(2)提出Parallel Layers:每个 Transformer 结构中的“并行”公式:与 GPT-J-6B 中一样,使用的是标准“序列化”公式。原创 2023-05-14 01:24:35 · 2086 阅读 · 0 评论 -
LlamaIndex :面向QA 系统的全新文档摘要索引
在LlamaIndex中提出了一个新索引,它将为每个文档提取/索引非结构化文本摘要。该索引可以帮助提高检索性能,超越现有的检索方法。它有助于索引比单个文本块更多的信息,并且比关键字标签具有更多的语义。它还允许更灵活的检索形式:我们可以同时进行 LLM 检索和基于嵌入的检索。原创 2023-05-10 23:45:41 · 1306 阅读 · 0 评论 -
【LLM系列之FLAN-T5/PaLM】Scaling Instruction-Finetuned Language Models
研究已经证明,在一组表述为指令的数据集上微调语言模型可以提高模型性能和对未知任务的泛化能力。(1)缩放任务数量;(2)缩放模型大小;(3)链式思维数据微调;论文发现,在上述方面进行指令微调可以显着提高各种模型(PaLM、T5、U-PaLM)、提示设置(零样本、少样本、CoT)和评估基准(MMLU、BBH、 TyDiQA、MGSM、开放式生成、RealToxicityPrompts)。原创 2023-05-08 23:11:08 · 1243 阅读 · 0 评论 -
BigCode开放性能超越Copilot的代码生成模型Starcoder
StarCoder模型的优点之一,是可以处理比其他大型语言模型更多的输入,可以接受高达8,000个Token,而这将能支援更多样的应用,像是经过一系列的对话指示,便可使StarCoder成为技术助理。由于StarCoder是一个多语言模型,因此开发团队也使用MultiPL-E基准测试进行比较,在多语言上,StarCoder表现比OpenAI code-cushman-001模型更好,并在资料科学DS-1000基准测试上,击败其他开放存取模型。原创 2023-05-05 23:27:14 · 1857 阅读 · 0 评论 -
生成式AI的一小步,AGI的一大步:AIGC时代ChatGPT全盘调查
OpenAI 最近发布了 GPT-4(又名 ChatGPT plus),这被证明是生成式 AI (GAI) 的一小步,但是通用人工智能 (AGI)的巨大飞跃。此外,我们对 ChatGPT 如何发展以实现通用 AIGC(又名 AI 生成的内容)提出了展望,这将是一个重要的里程碑AGI的发展。其他关键词和短语:Survey、ChatGPT、GPT-4、Generative AI、AGI、Artificial General Intelligence、AIGC。CCS 概念: • 计算方法 → 计算机视觉任务;原创 2023-04-14 21:10:57 · 681 阅读 · 0 评论 -
DeepSpeed-Chat:最强ChatGPT训练框架,一键完成RLHF训练!
本着使 ChatGPT 式模型及其功能民主化的精神,DeepSpeed 自豪地推出了一个通用系统框架,用于为类 ChatGPT 模型提供端到端的培训体验,名为 DeepSpeed Chat。它可以自动采用你最喜欢的预训练大型语言模型,通过 OpenAI InstructGPT 风格的三个阶段来生成您自己的高质量 ChatGPT 风格模型。DeepSpeed Chat 使类似ChatGPT 风格的模型训练变得简单、快速、经济且可扩展。原创 2023-04-13 23:07:40 · 3033 阅读 · 4 评论 -
InstructGLM:基于ChatGLM-6B在指令数据集上进行微调
基于ChatGLM-6B+LoRA在指令数据集上进行微调。原创 2023-04-10 22:37:02 · 3620 阅读 · 0 评论 -
Google Brain新提出的优化器“Lion”,效果要比Adam(W)更好
Google Brain新提出的优化器“Lion”,效果要比Adam(W)更好。原创 2023-02-25 22:18:02 · 1336 阅读 · 0 评论 -
【论文解读】如何使用1B参数的小模型吊打GPT3.5
COT全称为Chain-of-Thought,定义是在应对推理任务时,在给出最终答案之前所产生的中间推理步骤,载体是一系列的短句子。简单来说,思维链是一种离散式提示学习,更具体地,大模型下的上下文学习(即不进行训练,将例子添加到当前样本输入的前面,让模型一次输入这些文本进行输出完成任务),相比于之前传统的上下文学习,即通过x1,y1,x2,y2,…原创 2023-02-24 18:40:06 · 3167 阅读 · 0 评论 -
百度搜索首届技术创新挑战赛:搜索模型推理优化
模型推理优化任务采用相对开放的设定,可自行选用各种模型推理框架,挖掘GPU加速硬件特性,通过异构算子优化、模型量化压缩等各种优化手段,追求最优的模型推理性能(推荐深入应用NVIDIA TensorRT优化技术)。参赛队员请用飞桨AI Studio配置的NVIDIA A100完成参赛作品。给出已经训练好的模型文件,模型结构以ERNIE结构为主,提供PaddlePaddle和ONNX两种模型格式;同时给定一批搜索线上模型推理测试数据,包括用户的实际query、候选文档等,所有数据均已ID化。原创 2022-11-28 15:59:34 · 239 阅读 · 0 评论 -
文本分类微调技巧实战2.0
讯飞比赛答辩结束,笔者和小伙伴们参加了一些讯飞的比赛,今年讯飞文本分类比赛相比去年更加多元化,涉及领域、任务和数据呈现多样性,听完各位大佬的答辩之后,结合之前经验和以下赛题总结下文本分类比赛的实战思路。原创 2022-11-18 17:40:42 · 906 阅读 · 0 评论 -
STI比赛任务一:【智能问答baseline】
https://aistudio.baidu.com/aistudio/projectdetail/5043272?contributionType=1原创 2022-11-16 13:03:24 · 634 阅读 · 0 评论 -
百度搜索首届技术创新挑战赛 丰厚奖励等你拿!
百度搜索首届技术创新挑战赛 丰厚奖励等你拿!原创 2022-11-02 17:13:52 · 845 阅读 · 0 评论 -
字节跳动安全Ai挑战赛-基于文本和多模态数据的风险识别总结
字节跳动安全Ai挑战赛-基于文本和多模态数据的风险识别总结原创 2022-10-13 16:27:54 · 1224 阅读 · 0 评论 -
【NLP基础】英文关键词抽取RAKE算法
【NLP基础】英文关键词抽取RAKE算法原创 2022-08-18 13:39:42 · 856 阅读 · 0 评论 -
中文文本纠错任务简介
中文文本纠错任务简介原创 2022-07-25 11:16:32 · 1791 阅读 · 0 评论 -
Kaggle 专利匹配比赛金牌方案赛后总结
Kaggle 专利匹配比赛赛后总结原创 2022-06-22 17:58:37 · 1058 阅读 · 0 评论 -
芒果TV商品意图识别top3思路分享
芒果TV商品意图识别top3思路分享原创 2022-06-14 18:11:55 · 311 阅读 · 1 评论 -
NLP比赛推送
NLP比赛推送原创 2022-06-09 19:56:18 · 356 阅读 · 0 评论 -
librosa音频处理教程
librosa音频处理教程原创 2022-05-05 21:51:00 · 3451 阅读 · 1 评论 -
基于Trie 树实现简单的中文分词
基于Trie 树实现简单的中文分词原创 2022-05-03 21:16:15 · 855 阅读 · 0 评论 -
一种好用的树结构:Trie树
一种好用的树结构:Trie树原创 2022-05-02 23:23:14 · 527 阅读 · 0 评论 -
2022搜狐校园 情感分析 × 推荐排序 算法大赛 baseline
完整代码 可关注ChallengeHub 回复“搜狐”即可获取赛题背景在工业界,推荐算法和自然语言处理是结合非常紧密的两个技术环节。本次大赛我们推出创新赛制——NLP 和推荐算法双赛道:探究文本情感对推荐转化的影响。情感分析是NLP领域的经典任务,本次赛事在经典任务上再度加码,研究文本对指定对象的情感极性及色彩强度,难度升级,挑战加倍。同时拥有将算法成果研究落地实际场景的绝佳机会,接触在校园难以体验到的工业实践,体验与用户博弈的真实推荐场景。比赛任务比赛分为两部分:第一部分:面向实体对..原创 2022-04-30 20:12:25 · 1634 阅读 · 0 评论 -
huggingface transformers实战系列-06_文本摘要
文本摘要实战:基于预训练模型实现文本摘要任务,基于pegasus实现对话文本摘要原创 2022-04-08 23:40:49 · 6616 阅读 · 2 评论 -
huggingface transformers实战系列-05_文本生成
本文主要讲述如何通过huggingface transformers加载gpt2模型,实现多种文本解码方式原创 2022-04-08 22:43:51 · 2657 阅读 · 0 评论 -
【NLP最佳实践】Huggingface Transformers实战教程
内容简介🤗手把手带你学 :快速入门Huggingface Transformers《Huggingface Transformers实战教程 》是专门针对HuggingFace开源的transformers库开发的实战教程,适合从事自然语言处理研究的学生、研究人员以及工程师等相关人员的学习与参考,目标是阐释transformers模型以及Bert等预训练模型背后的原理,通俗生动地解释transformers库的如何使用与定制化开发,帮助受众使用当前NLP前沿模型解决实际问题并取得优秀稳定的实践效果。原创 2022-03-27 17:24:18 · 2849 阅读 · 0 评论 -
nlp-with-transformers系列-04_多语言命名实体识别
到目前为止,在本书中我们已经应用了Transformers来解决英语语料的NLP任务,但如果你的文件是用希腊语、斯瓦希里语或克林贡语写的,你该怎么办? 一种方法是在Hugging Face Hub上搜索合适的预训练语言模型,并在手头的任务上对其进行微调。 然而,这些预训练的模型往往只存在于像德语、俄语或普通话这样的 "高资源 "语言,这些语言有大量的网络文本可供预训练。 当你的语料库是多语言的时候,另一个常见的挑战出现了。 在产品化环境中维护多个单语模型对你和你的工程团队来说不会有任何乐趣。幸运的是,有一原创 2022-03-17 23:20:30 · 2025 阅读 · 1 评论 -
nlp-with-transformers系列-03_剖析transformers模型
transformers模型剖析原创 2022-03-15 22:59:50 · 2017 阅读 · 0 评论 -
nlp-with-transformers系列-02-从头构建文本分类器
从头基于huggingface transformers构建文本分类器原创 2022-03-15 06:09:30 · 1671 阅读 · 2 评论 -
nlp-with-transformers实战-01_transformers简介
在这一章中,我们将介绍支撑Transformers普遍存在的核心概念,参观一些它们擅长的任务,并在最后看一下Hugging Face生态系统的工具和库。 让我们先来探讨一下编码器-解码器的框架和Transformers兴起之前的架构原创 2022-03-12 03:29:29 · 2101 阅读 · 0 评论 -
[NLP比赛推荐]商品标题实体识别
1 赛题背景京东商品标题包含了商品的大量关键信息,商品标题实体识别是NLP应用中的一项核心基础任务,能为多种下游场景所复用,从标题文本中准确抽取出商品相关实体能够提升检索、推荐等业务场景下的用户体验和平台效率。本赛题要求选手使用模型抽取出商品标题文本中的实体。与传统的实体抽取不同,京东商品标题文本的实体密度高、实体粒度细,赛题具有特色性。2 比赛数据本赛题数据来源于特定类目的京东商品标题短文本,分为有标注样本和无标注样本,供选手选择使用。数据格式:训练集数据每一行第一列为一个字符或空格(.原创 2022-03-09 01:41:46 · 1711 阅读 · 0 评论