时光丶遗孤-CSDN博客

原创论文精读---RAG攻击（PoisonedRAG）

用于指定I的长度。给定一个目标问题QQ（例如，Q=Q1,Q2,...,QM）和目标答案R（例如，R=R1,R2,...,RM），PoisonedRAG为Q设计一个有毒文本P，使得当P被注入RAG的知识库时，RAG中的大型语言模型更有可能生成目标答案R，其中当Q=Qi时，R=Ri（ i=1,2,...,M）。的随机性（即，通过设置非零温度超参数，即使输入相同，大语言模型的输出也可能不同），生成的I即使提示相同也可能不同，使PoisonedRAG能够为同一目标问题生成不同的有毒文本。

2024-10-22 19:34:05 2321

原创论文精读---深度学习经典论文

通过使用先进的GPU技术和有效的正则化方法，本文所提出的模型在当时最大的图像分类竞赛中取得了突破性的成绩，从而推动了深度学习在计算机视觉领域的发展。为了验证模型的有效性，作者不仅报告了单个模型的结果，还尝试了多个模型预测结果的平均值，并且探索了不同网络结构的影响，比如增加额外的卷积层等。深度卷积神经网络，摘得了2012年ILSVRC比赛的桂冠，该文章的重要意义在于其在ImageNet比赛中以巨大的优势击败了其它非神经网络的算法，在此之前，神经网络一直处于不被认可的状态。因此，该数据集是可以公开访问的。

2024-10-06 17:34:29 1637

原创论文略读-hallucination相关

通过利用LLMs内部状态中的密集语义信息，并结合简单的EigenScore指标和特征裁剪技术，不仅提高了检测的准确性，而且保持了较高的计算效率。为了解决这个问题，作者提出了一个名为INSIDE的方法框架，该框架利用了LLMs内部状态中保留的密集语义信息来检测幻觉。此外，还探索了一种测试时特征裁剪的方法，通过截断内部状态中的极端激活来减少过度自信的生成。接着，通过一系列的实验验证了方法的有效性，并与现有的其他方法进行了对比。同时，在方法部分，对每个步骤都有详细的解释和理论支持，使得读者能够理解其背后的原理。

2024-09-22 20:57:34 324

原创论文略读-hallucination相关

本文探讨的是检索增强语言模型在推理阶段面临的问题，具体包括处理大量检索文本导致的速度缓慢和扩展困难。尽管检索增强能够改善大规模语言模型（LLM）的幻觉、陈旧性和隐私泄露等问题，但是现有的检索增强技术在实际应用中却因需要进行大量的计算而变得效率低下。

2024-09-22 20:52:26 398

原创机器学习＆深度学习

此博文记录自己的机器学习＆深度学习笔记以及一些心得，写于2024年秋季学期主要参考书：《动手学深度学习》主要参考课程：李宏毅老师-深度学习。

2024-09-22 16:54:54 1689

原创论文精读---ethics相关

针对上述问题，研究人员提出了DeNEVIL算法，这是一种新颖的提示生成算法，旨在动态探测LLMs的价值观脆弱性，并通过生成行为来揭示其违反特定伦理的情况，进而探究模型内在的伦理倾向。然而，随着LLMs的普及，它们生成的内容可能引发的社会风险也越来越受到关注，特别是生成的内容中包含的不道德或有害信息。综上所述，该研究不仅提供了一种新的方法来动态探查和导航LLMs的伦理价值观，还为后续研究提供了宝贵的指导意义，尤其是在伦理对齐、多语言文化考量以及伦理风险意识等方面。来源：ICLR 2024。

2024-09-16 10:45:24 858

原创论文略读---jailbreak相关

碎片式越狱:针对多模态语言模型的组合对抗性攻击来源：ICLR。

2024-09-16 10:33:32 472

原创论文略读--prompt injection相关

针对llm集成应用程序的提示注入攻击。

2024-09-16 10:26:33 408

原创 [论文精读-hallucination相关】

具体来说，研究人员探索了一种通用的微调方案——检索增强生成（RAG），这是一种将预训练的参数化记忆与非参数化记忆结合起来进行语言生成的方法。他们引入了一个RAG模型，其中参数化记忆是一个预训练的序列到序列模型，而非参数化记忆则是一个基于密集向量索引的维基百科数据库，并由一个预训练的神经网络检索器访问。这项研究表明，通过将参数化记忆与非参数化记忆相结合，可以在多种NLP任务上实现卓越的表现。RAG模型在三个开放域问答任务上达到了最新的技术水平，超越了纯参数化的序列到序列模型以及专门为检索和提取设计的架构。

2024-09-15 21:40:27 263

原创论文精读---toxicity相关

黑盒技术，如Google Jigsaw的Perspective API和OpenAI的Moderation API，依赖于捕获提示中的有毒内容。然而，有毒提示符表现出广泛的行为，包括不同类别的概念和不同的表达，并且可以使用越狱技术进行伪装。一种轻量级的灰盒方法，旨在高效地检测LLMs中的有毒提示。现有的检测技术，无论是黑盒还是白盒，都面临着与有毒提示的多样性、可扩展性和计算效率相关的挑战。需要开发一种轻量级但有效的毒性提示检测方法，以确保可扩展性和效率，使其适合实时应用，同时减轻现有方法的缺点。

2024-09-15 21:03:12 363

原创 2024周计划

大语言模型》书章节分为五个部分外加总结共14章，第一周完成前两个部分学习，即学习到预训练部分，第二周学习完第三部分即微调与对齐部分，第三周学习完第四部分大模型使用，第四周学习完第五部分评测与应用以及消化总结每天1.5到2h。《动手学深度学习》章节分为16章，第一周学习到第5章深度学习计算，第二周学习到第10章注意力机制，第三周学习到第15章自然语言处理，第四周总结消化每天至少2h。学习宗旨：基础不牢，地动山摇！基础不牢，地动山摇！基础不牢，地动山摇！关于深度学习和大语言模型。

2024-09-10 17:33:16 235

weixin_45725952的博客

原创论文精读---RAG攻击（PoisonedRAG）

原创论文精读---深度学习经典论文

原创论文略读-hallucination相关

原创论文略读-hallucination相关

原创机器学习＆深度学习

原创论文精读---ethics相关

原创论文略读---jailbreak相关

原创论文略读--prompt injection相关

原创 [论文精读-hallucination相关】

原创论文精读---toxicity相关

原创 2024周计划

空空如也

空空如也