LLM
文章平均质量分 87
来杯Sherry
这个作者很懒,什么都没留下…
展开
-
在阿里云调用通义系列开源大模型API时如何替换你的apikey【我的创作纪念日】【Qwen】
看论文为主,最近有在调研落地的项目,所以文章能更新几篇hh,不太有用的内容也就在自己电脑的txt文档当一段时间的过客就进垃圾桶了,甚至对自己都没用了,也就不想发出来了。过去写得最好的一段代码嘛…没有想到,这里就分享一个好消息吧,Qwen大模型调用降价,有些甚至免费7天,需要的小伙伴可以去。平台上的调用demo和apikey的注入方式是分开的描述的,没有在代码中给出具体的替换方法。以python调用为例,可以这样注入你的apikey。继续分享有意思的东西hhh。最初成为创作者的初心。原创 2024-05-22 18:17:25 · 190 阅读 · 0 评论 -
在prompt使用占位符实现提高信息替换成功率和替换位置准确率【prompt】【LLM】
将question中{%doc3%}替换直接照搬 content的内容,{%doc1%}、{%doc2%}替换为与问题无关的两句话,是真正的替换不是照搬文字。将question中{%doc3%}替换直接照搬 content的内容,{%doc2%}、{%doc1%}替换为与问题无关的两句话,是真正的替换不是照搬文字。造数据集的时候遇到的,llm不能很好的帮你替换,替换的内容不对,或者是替换的位置不对,比如这里就是替换位置不对,只盯着doc2替换,无视你的替换位置的变化。,两者不一致,替换的位置就不能保证了。原创 2024-05-11 20:30:10 · 516 阅读 · 0 评论 -
ablation study
消融实验”(ablation study)通常指的是通过逐步移除系统的一部分来评估该系统的贡献。这种方法旨在理解系统的不同组成部分对整体系统性能的影响(消融实验常用于解释模型的预测能力,帮助理解模型对输入特征的依赖关系。在其他领域,消融实验也可以用于研究系统的稳定性和鲁棒性。结合上图,定义了一个N模型组成的系统,每次移仅除一个model,逐步实现从。这种实验设计常用于机器学习、计算机科学、生物学等领域。移除,评估系统在移除前后的性能损失,就完成了一次消融实验。简单说,控制变量做评估。原创 2023-11-12 21:42:31 · 257 阅读 · 0 评论 -
LLM-TAP随笔——有监督微调【深度学习】【PyTorch】【LLM】
映射规则是人为制定的,比如,将“太好了”、“好”映射为“正面”标签,将“不好”,“糟糕”映射为“负面”标签,将“一般”映射为“中立”标签。由于模型可接受的最大输入长度有限,随着软提示的参数量增多,实际输入序列的最大长度也会相应减小,影响模型性能。:在自然语言处理中,LLM(Large Language Model,大型语言模型)的上下文窗口指的是模型在处理文本时所考虑的文本片段或单词的范围。= {“太好了”,“好”,“一般”,“不好”,“糟糕”}是衡量指令数据的重要维度,影响有监督微调过程的关键因素。原创 2023-09-25 21:40:02 · 563 阅读 · 0 评论 -
LLM-TAP随笔——语言模型训练数据【深度学习】【PyTorch】【LLM】
"语料库的似然性"通常是指一个特定文本序列(通常是一段文本或一个句子)在语料库中出现的概率。统计每个相邻字节对的出现频率,合并出现频率最高的字节对,将其作为 新的词元加入词表。构建词元表:覆盖绝大部分的输入词,并避免词表过大所造成的数据稀疏问题。输入词序列全词切分,对照词表按词元从长到短顺序遍历匹配。合成全词时,词元表示失败部分视作未登录词,赋予相同表示。2. 全词切分为词元以及词元合并为全词的方法。将字节视为合并的基本符号。将字节视为合并的基本符号。第一个词元出现的频率。第二个词元出现的频率。原创 2023-09-25 21:26:10 · 765 阅读 · 0 评论 -
LLM-TAP随笔——大语言模型基础【深度学习】【PyTorch】【LLM】
解码端则负责生成目标语言序列,这一生成过程是自回归的,即对于每一个单词的生成过程,仅有当前单词之前的目标语言序列是可以被观测的,因此这一额外增加的掩码是用来掩盖后续的文本信息,以防模型在训练阶段直接看到后续的文本序列进而无法得到有效地训练。预训练阶段包括了编码器和解码器的部分,用于学习通用表示,而下游任务通常涉及到对编码器和解码器的微调,以适应具体任务。最底层的输入(x1, x2, x3) 表示输入的序列数据,通过嵌入层(可选)将它们进行初步的embedding得到的a1,a2,a3。原创 2023-09-25 21:12:56 · 726 阅读 · 0 评论