- 博客(16)
- 收藏
- 关注
原创 使用gradio部署微调后的模型
Gradio 是一个用于快速搭建机器学习模型和数据科学应用的开源 Python 库。它允许开发者创建交互式的用户界面,使得非技术用户也能方便地使用和测试机器学习模型。在使用方面使用Blocks 比interface更加灵活,更适合做出一个网页样式。如果要对样式进行再细化的处理,需要用到css技术,对前端有所了解的一定知道。Gradio 是一个功能强大且易于使用的工具,适合快速搭建和测试机器学习模型的用户界面。还有更多的功能大家可以去官网或者其它博客进行学习。使用gradio部署微调后的模型。
2024-07-16 21:17:58 1021 1
原创 使用llama.cpp量化模型
大模型量化是指在保持模型性能尽可能不变的情况下,通过减少模型参数的位数来降低模型的计算和存储成本。本次实验环境为魔搭社区提供的免费GPU环境(24G),使用Llama.cpp进行4bit量化可以大幅减少大语言模型的内存占用,并提高推理效率。Llama.cpp 是一个轻量级的C++库,旨在帮助用户在资源受限的环境中高效地运行大型语言模型。高效:通过优化的内存管理和计算,Llama.cpp能够在性能有限的硬件上高效运行大模型。
2024-07-13 18:54:01 1315
原创 LoRA微调中文版Llama3模型
LoRA(Low-Rank Adaptation)是一种微调大模型的方法,通过引入低秩矩阵来减少参数量和计算复杂度,主要应用于大型预训练语言模型的微调过程。LoRA的优势在于其减少了需要微调的参数量,从而降低了计算成本和内存需求,同时保持了模型性能。
2024-07-12 17:07:53 2485 2
原创 处理报错deepspeed使用trainer object.__init__() takes exactly one argument (the instance to initialize)
在kaggle上结合deepspeed使用trainer。
2024-07-07 17:08:38 580
原创 kaggle运行报错RuntimeError: cutlassF: no kernel found to launch!
处理报错问题:RuntimeError: cutlassF: no kernel found to launch!
2024-07-05 16:56:49 958 3
原创 langchain学习之agent
LangChain 的代理(Agents)是一个强大的工具,可以将语言模型与外部工具结合起来,以便在处理复杂任务时提供更丰富的功能。#自定义from langchain.agents import tool #可以应用任何函数,将其转换成langchain使用的工具#代理也能把''信息看懂来识别这个函数干嘛的@tool'不用输入数据,返回当天日期'model,handle_parsing_errors=True, #遇见了错误,传回model进行处理。
2024-07-02 10:58:40 1028
原创 langchain学习之chain机制
Chain 代表一个处理步骤的序列,每个步骤可以是一个调用语言模型、调用外部工具(如搜索引擎或数据库)、执行自定义逻辑,或者其他任何操作。Chain 的设计使得你可以灵活地将多个步骤组合在一起,以处理复杂的任务。
2024-06-27 13:41:41 1051
原创 langchain学习之第二部分memory机制
今天记录第二部分Memory机制来存储和检索对话上下文,使得多轮对话更加连贯。这样,应用程序可以记住用户之前的输入和状态,从而提供更智能和个性化的响应。导包,以及初始化请看第一部分。以上就是今天要讲的内容,本文仅仅简单介绍了memory的使用,还有另外两种机制,分别是向量和实体memory机制,可以再看看。
2024-06-25 10:30:58 738
转载 LangChain塌房?深入解读开发者是否该弃用LangChain等AI应用开发框架--刚学langchain就刷到
当开始搞复杂的工作流,多 Agent 协作,对框架的要求就上来了,LangChain 们的价值就大一些了。这样的区分并非绝对,李特丽还解释了框架工具提供的长期价值和灵活性:“即使经验丰富的开发者也可能从使用框架中获益,如文章作者在使用 LangChain 一年后才完全脱离框架提供的抽象和工具可以加速开发过程,特别是在复杂项目中。”康轶文表示,网站社群里也有用户从早期使用、到现在不用并开始转为自己的框架,“LLM开发是一定会用到框架的,这个是确定的,但框架长什么样子顺不顺手每个人的要求标准都不一样。
2024-06-25 09:56:39 126
原创 LLM岗位学习之langchain(文心一言)
LangChain的主要作用是简化和增强由大型语言模型(LLMs)驱动的应用程序的开发和管理。它提供了一系列工具和功能,帮助开发者更有效地构建复杂的自然语言处理(NLP)LangChain:用于构建大语言模型应用的开源框架。学习langchain中的memory机制。
2024-06-24 19:21:42 745
原创 青软集团-青岛nlp实习面试
5.自回归模型通过先前生成的词预测下一个词。首先,它接收输入文本序列,使用嵌入层将词转化为向量表示,然后通过多层变换器(Transformer)编码这些向量,其中包含自注意力机制,捕捉词之间的依赖关系。这一过程是逐词进行的,每次生成一个词,并将其加入到输入序列中,重复这一过程直到生成完整的序列。2.RAG(Retrieval-Augmented Generation)是一种将信息检索(Retrieval)与生成模型(Generation)结合的技术,用于提高自然语言处理任务中的生成效果。
2024-06-13 10:19:30 305
原创 阿里天池-糖尿病命名实体识别-CRF
加入CRF,并把模型bert换成hfl/chinese-roberta-wwm-ext。下图为F1的部分运行结果。
2024-05-20 18:59:30 487 3
原创 阿里天池-糖尿病命名实体识别
命名实体识别(NER)是自然语言处理领域的一个基本任务,其目标是从文本中识别出具有特定意义的实体,如人名、地名、组织名等。这些实体在文本中扮演着关键角色,对于文本理解和信息抽取具有重要意义。随着深度学习技术的发展,NER任务取得了显著的进展,各种算法和模型不断涌现,为NLP领域的研究和应用提供了强大的支持。本部分写的是与糖尿病相关的NER任务。相当于用Bert做分类任务,针对的是每个token分类,下一步准备加入CRF,并把模型bert换成更新的。
2024-05-19 21:36:51 735 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人