![](https://img-blog.csdnimg.cn/20190918140145169.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
科研学习生涯
文章平均质量分 72
研0
Fairy要carry
欲戴其冠,必承其重
展开
-
【LLM-推理】Self-Refine:使用feedback迭代修正LLM的Output
本文主要提出了Self-Refine策略,旨在通过一个LLM不断refine修正LLM的输出,使其在无需额外训练的情况下,在下游任务产生更好的效果。该方法的直观Insight:我们在写一封 email 时,往往写出一个 draft,然后再修改其中措辞不当的地方,修改为更好的版本。首先,给定一个input x,在下让 LLM 先生成一个初始outputy0。进行迭代,每一轮 t 中:Feedback:将input x、上一轮和给 LLM,得到这一轮的。【feedback的prompt】原创 2024-07-19 13:26:36 · 264 阅读 · 0 评论 -
【LLM评估】GLUE基准数据集介绍
自然语言处理(NLP)主要自然语言理解(NLU)和自然语言生成(NLG)。为了让NLU任务发挥最大的作用,来自纽约大学、华盛顿大学等机构创建了一个多任务的自然语言理解基准和分析平台,也就是。GLUE一共包含9项NLU(自然语言理解)任务,均为英语。涉及自然语言推断、文本蕴含、情感分析、语义相似等多个任务。像Bert、XLNet、RoBERTa、ERINE、T5等知名模型都会在此基准上进行测试。GLUE官方网站。原创 2024-07-19 00:12:30 · 581 阅读 · 0 评论 -
CoT-SC论文速读
例如,如图1所示,一个模型可以对一个数学question生成几种可信的响应 它们都得到相同的正确答案(输出1和3)。由于语言模型不是完美的推理者,模型也可能产生不正确的推理路径或在一个错误 f的推理步骤(例如,在输出2中),但这样的解决方案不太可能得到相同的答案。对比之下,发现加权求和归一化的效果和多数投票差不多:。,Sample的主要作用是让LLM的decoder生成多条推理路径,而Marginalize Out的作用在于:将生成的推理路径所得到的答案。人类的一个显著方面是,人们的思维方式会有所不同。原创 2024-07-15 19:05:11 · 765 阅读 · 0 评论 -
[论文笔记]RAPTOR: RECURSIVE ABSTRACTIVE PROCESSING FOR TREE-ORGANIZED RETRIEVAL
LLM不包含特定任务所需要的领域知识,并且随着世界的持续变化,使得LLM中所学的事实失效。在开放领域QA系统中开创性的方法是将大量的文本【数据源】进行分块,然后在单独的信息索引系统中建立索引,最后将检索到的知识与Query结合在一起作为上下文丢给下游的LLM【RAG检索增强】,这使得为系统提供特定领域的知识变得更加容易,并且也能够更加轻松地解释和追溯来源。智能检索到K个相邻文本片段【太少有局限】,限制了LLM大规模话语结构能力。原创 2024-07-13 02:39:59 · 1261 阅读 · 1 评论 -
agent论文分析
重要的是,它们不仅复制训练数据,而且还显示出一定程度的创造力,生成不同的文本,比人类[216]制作的基准同样新颖,甚至更新颖。人工智能(AI)是一个致力于设计和开发能够复制人类智能和能力的系统的领域,早在18世纪,哲学家Denis Diderot提出了一个观点,即如果一只鹦鹉能够回答每一个问题,它就可以被认为是智能的,他的观点突显了一个深刻的概念:高度智能的生物可以类似于人类智能。操作:首先,感知模块,对应于人类的感官系统,如眼睛和耳朵,感知外部环境的变化,然后将多模态信息转换为Agent的可理解的表示。原创 2024-07-11 00:53:47 · 475 阅读 · 0 评论 -
综述怎么写
我解释一下:所有你找到的文献要对它们进行一个分类,哪个是研究哪方面的,毕竟不能都是一样的吧,有的可能是角度不同、有的可能是方法不同都可以。然后要对每一研究类别进行一个肯定前人研究成果,然后自己再对这一成果进行分析,自己创新,也就是:XXX在对什么课题从哪种角度研究后对我有很大启发,但还缺乏从另一角度的研究,所以从这一角度展开本文的研究。文献综述其实根本上就是对你在写这次论文中用到的参考文献做一个系统的分类总结分析,按照握在上面给你说的步骤你可以自己试一试,有什么不懂的地方可以来问我~原创 2024-07-05 11:44:23 · 76 阅读 · 0 评论 -
Agent的理解
以FSM描述Agent行为之深入实践_agent是指驻留在-CSDN博客转载 2024-07-01 15:13:23 · 21 阅读 · 0 评论 -
一些指标的学习
MRR 是衡量检索系统返回的结果列表中第一个相关结果位置的指标。具体来说,它是所有查询倒数排名的平均值。原创 2024-06-29 01:41:42 · 389 阅读 · 0 评论 -
论文学习:基于知识图谱的RAG进行客服问答
Retrieval-Augmented Generation with Knowledge Graphs for Customer Service Question Answering(基于知识图谱的RAG进行客服问答)在客户服务技术支持中,迅速准确地检索相关的过往问题对于有效解决客户查询至关重要【1.前景提要】。在大型语言模型(LLMs)的检索增强生成(RAG)中,传统的检索方法将大量过往问题跟踪工单视为普通文本,忽略了关键的问题内部结构和问题间关系,从而限制了性能【2.老方法】。原创 2024-06-29 01:02:23 · 874 阅读 · 0 评论 -
AutoEncoder简介
作为一种无监督或者自监督算法,自编码器本质上是一种数据压缩算法。输入图像(在这个例子中是一个28x28像素的数字“9”)首先被输入到编码器中。编码器的任务是将这个输入压缩成一个更小的、密集的表示形式,称为“code”。这个code通常具有比原始输入更少的维度。在这里,784个像素被编码成了一个维度小于784的code。解码器主要目的是接收编码器生成的code,然后尝试重构原始输入图像。输出的图像应该尽可能接近原始图像,虽然可能会有一些失真。原创 2024-06-27 00:11:01 · 889 阅读 · 0 评论 -
Transformers和Langchain中几个组件的区别
transformers 是由 Hugging Face 开发的一个开源库,它提供了大量预训练模型,主要用于自然语言处理(NLP)任务。这个库提供的模型可以用于文本分类、信息抽取、问答、文本生成等多种任务。文本分类:使用 BERT、RoBERTa 等模型进行情感分析、意图识别等。命名实体识别(NER):使用序列标注模型来识别文本中的具体实体(如人名、地点、组织名)。机器翻译:使用像 T5 或 Marian NMT 这样的序列到序列的模型进行语言之间的翻译。文本摘要。原创 2024-06-24 00:17:53 · 450 阅读 · 0 评论 -
论文阅读03(基于人类偏好微调语言模型)
奖励学习使得强化学习(RL)可以应用于那些通过人类判断来定义奖励【1. 关键词是什么】的任务,通过向人类提问来建立奖励模型。大多数关于奖励学习的研究使用了模拟环境,但复杂的价值信息通常以自然语言表达【2. 对比】,我们认为将奖励学习应用于语言是使RL在实际任务中实用且安全的关键。在本文中,我们基于生成预训练语言模型的进展,将奖励学习应用于四个自然语言任务:继续生成正面情感文本或物理描述性语言,以及TL;DR和CNN/Daily Mail数据集上的摘要任务【3. 任务】。原创 2024-06-22 15:58:20 · 1038 阅读 · 0 评论 -
day02论文学习:能够使大语言模型产生带有引用的文章
大型语言模型(LLMs)已经成为广泛使用的信息搜索工具,但它们生成的输出容易出现幻觉【1.前景】。在这项工作中,我们的目标是让LLMs生成带有引文的文本【2.目的】,提高其事实正确性和可验证性。现有的工作主要依赖商业搜索引擎和人工评估,这使得重新复制和比较不同的建模方法变得具有挑战性。我们提出了** ALCE【3.核心关键词,控制变量的关键】**,这是第一个用于自动LLMs引文评估的基准。ALCE收集了各种问题和检索语料库,并要求构建端到端系统来检索所支持的文档并生成带有引文的答案。【4.关键词作用】原创 2024-06-17 17:50:16 · 1060 阅读 · 0 评论 -
论文学习day01
尽管具有显著的能力,大型语言模型(LLMs)往往会因完全依赖其封装的参数性知识而产生包含事实错误的回应。检索增强生成(RAG)是一种临时方法,它通过检索相关知识来降低这类问题。然而,无差别地检索和合并固定数量的检索段落,不考虑检索是否必要或段落是否相关,会降低LM的多功能性,或导致生成无用的回应。我们介绍了一种名为“自我反思的检索增强生成”(SELF-RAG)的新框架,通过检索和自我反思来增强LM的质量和事实准确性。原创 2024-06-15 12:58:51 · 781 阅读 · 0 评论 -
深度学习常见Key Words
与非端到端相比,端到端不涉及整个任务的拆分以及子任务的处理,从输入端到输出端会得到一个预测结果,将预测结果和真实结果进行比较得到误差,将误差反向传播到网络的各个层之中,调整网络的权重和参数直到模型收敛或者达到预期的效果为止,中间所有的操作都包含在神经网络内部,不再分成多个模块处理。Sota实际上就是State of the arts 的缩写,指的是在某一个领域做的Performance最好的model,一般就是指在一些benchmark的数据集上跑分非常高的那些模型。就是BERT,而需要比较的。原创 2024-06-14 18:36:54 · 383 阅读 · 0 评论 -
LayerNorm层归一化
【虽然没有像BN那样对不同批次相同维的数据进行归一化(BN通过局部批次的数据得到每一个维度上数值的方差和均值),但是因为LN也缩小了数值的大小,所以说分布变化也一定变小了】批次的区别,然后BN去缩小他们的的区别】,而 Layer Norm 的核心强调的是每个批次中不同维度数据之间的区别。通过归一化,每个样本的特征维度被标准化,使得每个维度的数据在训练过程中更加稳定,从而强化了每个维度数据的特征。由于每一层的输入数据具有相同的均值和方差,梯度的传播更加稳定,有助于训练过程的稳定性和收敛速度。原创 2024-06-11 18:08:45 · 1184 阅读 · 0 评论 -
利用阿里云PAI平台微调ChatGLM3-6B
ChatGLM3-6B大模型是智谱AI和清华大学 KEG 实验室联合发布的对话预训练模型。原创 2024-06-10 21:47:03 · 912 阅读 · 0 评论 -
内部协变量偏移问题(有无BN的代码比较)
比如1000条数据,batch_size=4,相当于要练250批次,当第一次批次的4条数据进行模型的训练时,此时网络学习动态已经养成,当第二批次进行训练时,极大可能导致差异较大,即参数变化很大,那么下一层的输入就会收到很大的影响,导致整个网络的学习动态发生改变。这样结果主要归结于前向传播中的变化的累积,每一层的输出都是下一层的输入。如果上一层的参数在训练中发生较大的变化(特别是在训练初期,毕竟样本太少,很难得到一个方差较小、大家都认可的方案),这将直接影响到下一层接收的输入分布。原创 2024-06-03 18:09:44 · 470 阅读 · 1 评论 -
Transformer从0到1的学习【还有2-10,别想太多】
我爱你”作为编码器Encoders的输入进行编码得到序列码后,作为解码器的输入得到输出即为,“I Love you”。左边的编码器Encoders的数量会 x n倍,而右侧的解码器Decoders与左侧同理,即为n相同;在架构方面,编码器数量虽然有 n 个,但是他们各自的参数是不相同的【架构相同,参数不同】,同理解码器亦是如此【类似与CNN】。原创 2024-06-01 20:10:51 · 735 阅读 · 0 评论 -
为什么要保持方差为1
在机器学习和深度学习中,维持激活函数输入的方差在一个合理范围内(如1)是很重要的,这有助于防止在训练过程中发生梯度消失或梯度爆炸的问题。如果方差过大或过小,经过多层网络后输出结果的方差可能变得极大或极小,这会影响梯度的有效传递,从而影响模型学习。第一层:输入数据的方差大导致了神经元输出的方差也很大。这可能会导致激活函数(尤其是像Sigmoid或Tanh这样的函数)饱和,导致梯度几乎为零(梯度消失),接下来可能参数并未更新到理想状态(陷入局部极小值情况),但是梯度消失更新不动了。原创 2024-06-01 19:40:24 · 310 阅读 · 0 评论 -
Pytorch的学习
时。原创 2024-06-01 00:59:51 · 1050 阅读 · 0 评论 -
5.27周报
但是最小化方程1/2||W||^2最小化求极值点W是无解的,所以我们需要添加一个正则项(Regulation Term)去求解【也就是我们的松弛变量,在反向传播算法中常用来减少梯度消失问题】,还有一种可能优化问题求解的解并不是我们想要的,我们也需要加一个正则项。本文基于何明凯前辈论文的学习,首先是学习了残差网络的背景,就于梯度消失和cnn参数过大FLOPs过多,以及VGG/plain网络的劣势进行对比,进而提出方案【所涉及的技术,如何改进等】高维映射,将低维矢量映射到高维,然后用一个向量代数式表示。原创 2024-05-27 22:29:06 · 928 阅读 · 0 评论 -
ResNet残差网络的学习【概念+翻译】
1、主要讲述在深度网络的情况下,首先提出一个问题:训练一个更好的网络是否和堆叠更多的层一样简单呢?2、但是解决这一个问题的前提:随着网络深度越来越大,梯度消失/梯度爆炸问题随即而来,原因如下:1.过拟合问题:网络深度越来越大,模型基于训练集的表现能力越来越强(神经网络万能定理:无限个非线性函数能够表示任意复杂的函数),那么此模型可能在测试集上就会出现过拟合问题,过度依赖训练集(类似于考试背答案一样)。原创 2024-05-27 19:39:08 · 1193 阅读 · 0 评论 -
如何利用已有数据对模型进行微调
利用LangChain的能力来结合检索和生成,形成一个知识增强的问答系统(不涉及对模型的微调),而是利用llm从文档检索到问题解答。原创 2024-05-26 23:37:59 · 340 阅读 · 0 评论 -
SVM兵王问题
前面六个就是棋子的位置,draw就是逼和,后面的数字six就代表,白棋最少用六步就能将死对方。1、如果训练后得到的支持向量很多的话(最多=样本数量),说明没有训练好(可能是参数错误)。如何衡量:auc越大,性能越好,eer越小性能越好。fold折数越多,结果越精确,但是耗时越久。eer:蓝色曲线与黄色曲线的交点的横坐标。留一个样本作测试集,其余的都作为训练。auc:是指黄色曲线和x轴的面积。2、SVM没法分割开来。3、样本本身不太好区分。原创 2024-05-26 12:26:54 · 1242 阅读 · 0 评论 -
核函数的介绍
2、多项式核:随着d越大,则 fai(X) 对应的维度将越高。(可以通过d得到对应的fai(X)函数)。1、用线性核等于没有用核。3、高斯核函数:无限维度。原创 2024-05-26 10:39:42 · 172 阅读 · 0 评论 -
SVM原问题与对偶问题
1.输入训练数据2.求的 θ(α) 函数(SMO函数进行求解)3.算 b会发现整个训练流程只出现了Kernel而没有那个升维函数。——> 把无限维的fai函数变成有限的计算。原创 2024-05-26 00:23:34 · 1048 阅读 · 0 评论 -
支持向量机SVM
SVM求解的目的是:最大化margin间隔的一条线。原创 2024-05-25 16:47:21 · 854 阅读 · 0 评论 -
NLP之word-embedding
⾃然语⾔是⼀套⽤来表达含义的复杂系统。在这套系统中,词是表义的基本单元。顾名思义,词向量是⽤来表⽰词的向量,也可被认为是词的特征向量或表征。把词映射为实数域向量的技术也叫词嵌⼊(word embedding)。近年来,词嵌⼊已逐渐成为⾃然语⾔处理的基础知识。在NLP(自然语言处理)领域,文本表示是第一步,也是很重要的一步,通俗来说就是把人类的语言符号转化为机器能够进行计算的数字,因为普通的文本语言机器是看不懂的,必须通过转化来表征对应文本。早期是基于规则的方法进行转化,而。原创 2024-05-20 13:21:08 · 929 阅读 · 0 评论 -
初学迁移学习的理解
微调是迁移学习的一种技术,它通常指的是在已经预训练好的模型基础上,对模型的部分或全部参数进行调整,以适应新任务的需求。微调可以在源域数据上进行,也可以在目标域数据上进行。假设你有一个在大规模图像数据集上预训练好的卷积神经网络(CNN),用于识别不同物体的图片。现在你有一个小型的数据集,包含了特定类型的物体图片,比如狗和猫。你可以使用迁移学习,将预训练的CNN模型作为基础模型,在你的小型数据集上进行微调,以便让模型学习到狗和猫的识别任务。原创 2024-05-20 00:55:48 · 898 阅读 · 0 评论 -
随机森林(Random Forest)的学习
OOB就是我们的袋外数据,我们可以根据我们的OOB进行误差的计算。对于已经生成的随机森林,用袋外数据测试其性能,假设袋外数据总数为O,用这O个袋外数据作为输入,带进之前已经生成的随机森林分类器,分类器会给出O个数据相应的分类,因为这O条数据的类型是已知的,则用正确的分类与随机森林分类器的结果进行比较,统计随机森林分类器分类错误的数目,设为X,则袋外数据误差大小=X/O。原创 2024-05-19 15:56:43 · 828 阅读 · 0 评论 -
非线性VS线性
这是因为线性方程的复合仍然是线性的(即:Ax+B和Cx+D的复合仍然是一个形式为 Ex + F 的线性方程),因此,如果网络只包含线性层,它的表达能力非常有限,只能学习输入数据的线性组合。总结来说,非线性激活函数是神经网络能够执行复杂任务的关键,它们提供了必要的非线性特性,使得网络不仅仅能处理简单的线性问题,还能学习和解决现实世界中的非线性、多变和复杂的问题。输出范围-1到1,是一个零中心化的激活函数,有助于数据在模型中的传递,避免某些层的输出始终为正,从而提高学习效率。二分类问题,老生常谈了。原创 2024-05-18 19:35:37 · 159 阅读 · 0 评论 -
CNN的具体架构VGG
对于给定的感受野(与输出有关的输入图片的局部大小),采用堆积的小卷积核是优于采用大的卷积核,因为多层非线性层可以增加网络深度来保证学习更复杂的模式,而且代价还比较小(参数更少)。随着更多层的叠加,通过前一层提取的特征可以结合成更复杂的模式,如物体的部分和结构。使用三个3x3的卷积核代替一个7x7的卷积核可以显著减少参数的数量,一个7x7的卷积核包含49个参数,但是一个3x3的卷积核包含9个参数,三个则是27个参数,所以,通过使用三个3x3的卷积核,你减少了参数数量(49 vs 27),这意味着模型的。原创 2024-05-18 17:47:20 · 1018 阅读 · 0 评论 -
GANs生成对抗网络的学习
GANs是一种深度学习模型,用于生成新的数据实例,如图像、音频和文本。生成器(Generator)和判别器(Discriminator)。原创 2024-05-18 16:15:52 · 832 阅读 · 0 评论 -
初学贝叶斯论
抛开统计学习不谈,贝叶斯思想是对生活也很有指导意义,毕竟我们总是不断利用先验(过往的经验)和观测到现象(x)做出决策(试图得到后验概率)。以抛硬币为例,假如有人告诉我们所抛硬币正面朝上的概率p1=0.7,反面朝上的概率p2=0.3。通过假设特征之间相互独立,我们可以将整个特征空间拆解为单个特征的概率估计,每个特征的取值数量相对较少,这样可以避免统计上的稀疏性问题,使得概率估计更加可靠和准确。:假设特征之间相互独立,意味着每个特征对于类别的影响是独立的,不受其他特征的影响。原创 2024-05-18 11:34:32 · 955 阅读 · 0 评论 -
逻辑回归的损失函数和线性回归的损失函数
其实很简单理解,我们需要求解最优的参数比如w,那么损失函数需要最小,我们dL/dw求解损失函数对w权重的局部梯度,当梯度变化较大时,说明w变化剧烈,离最优值比较远,需要加大我们的学习率lr(自适应学习率,参考之前的梯度大小),梯度变化大说明损失函数在当前参数值w附近对参数的变化非常敏感。1、**局部最小值:**在非凸损失函数中,存在多个局部最小值,这是损失函数在一定区域内的最小值。,可以高效地计算损失函数对网络中所有参数的梯度,无需手动计算每个参数的偏导数,大大提高了梯度计算的效率。原创 2024-05-18 10:09:44 · 1117 阅读 · 0 评论 -
RNN股票预测
【代码】RNN股票预测。原创 2024-05-16 16:52:02 · 454 阅读 · 0 评论 -
循环神经网络RNN的初学
x1——>y1的同时会产生a1,它包含了我们第一列处理信息的一些特点,然后这个a1就会被传送到y2上去,那么x2——>y2的序列中就会包含前一个的特点,依次类推,这就是我们的RNN结构**(前面的信息经过处理后,会作为一个新的输入作为后面信息的输入)**。**BRNN:**会从flare进行双向判断,往前的时候,也会将后续的序列信息考虑在内,比如Flare Zhao,这是一个大写的,后面 and David Chen又是一个大写的根据后的David Chen判断得出Flare是人名,One-hot编码的。原创 2024-05-16 12:12:46 · 873 阅读 · 0 评论 -
CNN卷积神经网络初学
如果构建一个BP神经网络,其要处理的像素点就有224x224x3=150528个,也就是需要处理150528个输入权重,而如果这个网络的隐藏层有1024个节点(这种网络中的典型隐藏层可能有1024个节点),那么,仅第一层隐含层我们就必须训练150528x1024=15亿个权重。在进行卷积层的处理之前,有时要向输入数据的周围填入固定的数据(比如0等),使用填充的目的是调整输出的尺寸,使输出维度和输入维度一致;所以,为了减少卷积操作导致的,边缘信息丢失,我们就需要进行填充(Padding)。原创 2024-05-15 22:48:05 · 960 阅读 · 0 评论 -
神经网络的认识
较好的方法就是预先设定几个可选值,通过切换这几个值来看整个模型的预测效果,选择效果最好的值作为最终选择。**2.信号传递:**神经元之间的通信是通过电化学信号完成的。**1.神经元的结构:**每个神经元都由细胞体、树突和轴突组成。**隐藏层:**这是神经网络的核心部分,包含多个层次的神经元。人工神经元接收多个输入,每个输入都有一个相关联的权重,这相当于人工神经网络的记忆。**输出层:**根据学到的特征生成最终的输出,可以是分类标签、数值或其他任务相关的结果。输出层的节点数:与目标的维度匹配。原创 2024-05-15 15:24:43 · 729 阅读 · 0 评论