CSPhD-winston-杨帆-CSDN博客

论文翻译：arxiv-2024 Estimating Contamination via Perplexity: Quantifying Memorisation in Language Model 高论文翻译：ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS 高论文翻译：arxiv-2024 Benchmark Data Contamination of Large Language Models: A Sur

2024-09-14 14:34:50 586

原创大模型提示词安全

翻译：arXiv-2023 PromptRobust: Towards Evaluating the Robustness of Large Language Models on

2024-09-11 10:19:33 171

原创论文翻译：arxiv-2024.Mathieu Ravaut.How Much are Large Language Models Contaminated? A Comprehensive

随着近年来大型语言模型（LLMs）的兴起，涌现出了大量新的机会，但也带来了新的挑战，其中污染问题迅速变得至关重要。在人工智能（AI）的商业应用和筹资中，已经达到了一个规模，即在流行的问答基准测试中获得的几个百分点的提高可能转化为数千万甚至数亿美元，这给模型的完整性带来了巨大的压力。与此同时，追踪LLMs所见过的数据变得越来越困难；对于像GPT-4和Claude-3这样的闭源模型来说，如果不披露任何关于训练集的信息，几乎是不可能的。

2024-09-26 15:47:25 11

原创论文翻译：arxiv-2024.Zhuohao Yu.FreeEval: A Modular Framework for Trustworthy and Efficient Evaluation of

大型语言模型（LLM）评估方法和数据集的快速发展带来了巨大的挑战：在确保可靠性、可重复性和效率的同时，成本有效地整合最先进的评估技术。目前，缺乏一个统一且可适应的框架，能够无缝整合各种评估方法。此外，由于潜在的数据污染，评估结果的可靠性常常受到质疑，而在面对与LLM推理相关的巨额成本时，评估效率通常被忽视。为了应对这些挑战，我们介绍了FreeEval，这是一个模块化且可扩展的框架，旨在实现LLMs的可靠和高效自动评估。

2024-09-24 20:39:29 32

原创论文翻译：arxiv-2024.Wei-Lin Chiang.Chatbot Arena: An Open Platform for Evaluating LLMs by Human

大型语言模型（LLMs）已经解锁了新的能力和应用；然而，评估与人类偏好的一致性仍然面临重大挑战。为了解决这个问题，我们介绍了Chatbot Arena，一个基于人类偏好评估LLMs的开放平台。我们的方法采用成对比较方法，并通过众包利用多样化用户群的输入。该平台已经运行了几个月，累积了超过24万张选票。本文描述了该平台，分析了我们迄今为止收集的数据，并解释了我们使用的久经考验的统计方法，用于有效和准确地评估和排名模型。我们确认众包问题足够多样化且具有区分度，众包人类选票与专家评分者的结果非常一致。

2024-09-24 20:33:48 34

原创论文翻译：arxiv-2024.Xiang Li.TreeEval: Benchmark-Free Evaluation of Large Language Models through Tree

最近，为了评估大型语言模型（LLMs）的性能，无论是通过计算整体分数还是使用另一个LLM作为评委，都建立了许多新的基准。然而，这些方法由于基准的公开访问和不灵活的评估过程而受到数据泄露的困扰。为了解决这个问题，我们介绍了TreeEval，这是一种无需基准的LLMs评估方法，让一个高性能的LLM主持一个不可复制的评估会议，基本上避免了数据泄露。此外，这个LLM作为考官，根据树规划策略提出一系列问题，考虑当前评估状态来决定下一个问题生成，并确保评估过程的完整性和效率。

2024-09-24 20:24:32 45

原创论文翻译：arxiv-2024.Jiahao Ying.Automating Dataset Updates Towards Reliable and Timely Evaluation of

大型语言模型（LLMs）在各种自然语言基准测试中取得了令人印象深刻的性能，这促使我们不断为更大的LLMs策划更具挑战性的数据集，这是一个成本高昂且耗时的过程。在本文中，我们提出自动化数据集更新，并提供系统性分析，以评估其在处理基准泄露问题、难度控制和稳定性方面的有效性。因此，一旦当前基准被掌握或泄露，我们可以及时更新它，以进行可靠和及时的评估。有两种更新策略：1）模仿策略，基于原始数据生成类似的样本，保留风格和上下文的本质；2）扩展策略，通过适应布鲁姆教育目标分类法，在不同的认知水平上进一步扩展现有样本。

2024-09-24 18:37:53 23

原创 04 面部表情识别：Pytorch实现表情识别-表情数据集训练代码

类别文件 PyTorch-Facial-Expression-Recognition/data/class_name.txt（最后一行,请多回车一行）下载后放在：PyTorch-Facial-Expression-Recognition/classifier/models/pretrained/mobilenet-v2-b0353104， resnet18-5c106cde， resnet34-333f7ec4三个模型的下载。修改配置文件的数据路径：config.yaml。

2024-09-24 18:16:40 194

原创论文翻译：arxiv-2024.Kaijie Zhu.DyVal 2: Dynamic Evaluation of Large Language Models by Meta Probing

大型语言模型（LLMs）的评估由于数据污染问题引起了社区的极大关注。现有的工作设计了使用特定任务的明确算法的评估协议，这些协议不易扩展到多样化的场景。此外，当前的评估基准只能提供整体基准结果，不能支持对LLMs能力的细粒度和多方面的分析。在本文中，我们提出了元探测代理（MPA），这是一种受心理测量学启发的通用动态评估协议，用于评估LLMs。MPA设计了探测和判断代理，以自动将原始评估问题根据心理测量学理论转换为新的评估问题，涉及三种基本认知能力：语言理解、问题解决和领域知识。

2024-09-24 14:50:07 40

原创论文翻译：arxiv-2024.Kaijie Zhu.DYVAL: DYNAMIC EVALUATION OF LARGE LANGUAGE MODELS FOR REASONING TASKS

大型语言模型（LLMs）在各种评估基准测试中取得了显著的性能。然而，人们担心它们庞大的训练语料库中可能存在数据污染。此外，当前基准测试的静态性质和固定复杂度可能无法充分衡量LLMs不断进步的能力。在本文中，我们介绍了DYVAL，一种用于动态评估LLMs的通用且灵活的协议。基于我们的框架，我们构建了基于图的DYVAL，利用有向无环图的结构优势来动态生成具有可控复杂度的评估样本。DYVAL在包括数学、逻辑推理和算法问题在内的推理任务上生成了具有挑战性的评估集。

2024-09-24 14:41:19 28

原创论文翻译：arxiv-2024.Chunqiu Steven Xia.Top Leaderboard Ranking = Top Coding Proficiency, Always?

LLM（大型语言模型）已成为代码生成任务的首选，特别是在代码生成方面的训练、开发和使用呈指数级增长。为了评估LLM在代码方面的能力，学术界和工业界的从业者都依赖于流行的手工制作的基准测试。然而，以前的基准测试只包含非常有限的问题集，无论是在数量上还是种类上。此外，由于流行和年龄的原因，许多基准测试容易出现数据泄露，示例解决方案可以轻易在网络和训练数据中找到。这些限制不可避免地让我们提出疑问：现有基准测试的排行榜性能是否足够可靠和全面，以衡量LLM的程序合成能力？为了解决这个问题，

2024-09-24 13:02:33 30

原创论文翻译：arxiv-2024.Naman Jain.LiveCodeBench: Holistic and Contamination Free Evaluation of Large

应用于代码相关应用的大型语言模型（LLMs）已经成为一个突出的领域，吸引了学术界和工业界的极大兴趣。然而，随着新的和改进的LLMs的发展，现有的评估基准（例如，HumanEval、MBPP）不再足以评估它们的能力。在这项工作中，我们提出了LiveCodeBench，这是一个全面且无污染的LLMs代码评估方法，它从三个竞技平台（即LeetCode、AtCoder和CodeForces）的比赛活动中随时间收集新问题。

2024-09-24 11:16:07 36

原创论文翻译：AAAI-2024.Yucheng Li.LatestEval: Addressing Data Contamination in Language Model Evaluation

随着在超大规模自动抓取语料库上预训练的语言模型的出现，评估中的数据污染问题日益严重。这一问题导致了对模型能力和泛化能力的准确评估面临重大挑战。本文提出了LatestEval，一种自动化方法，利用最新文本创建无污染的阅读理解评估。LatestEval通过仅使用在最近时间窗口内发布的文本来避免数据污染，确保与预训练语言模型的训练语料库没有重叠。我们开发了LatestEval自动化流程，1) 收集最新文本；2) 识别关键信息；3) 构建针对这些信息的问题，同时从上下文中移除现有答案。

2024-09-24 11:01:39 47

原创论文翻译：NeurIPS-2021-CCF-B.Zhiyi M.Dynaboard: An Evaluation-As-A-Service Platform for Holistic

我们介绍了Dynaboard，这是一个评估即服务平台框架，用于托管基准测试并进行全面的模型比较，与Dynabench平台集成。我们的平台直接评估NLP模型，而不是依赖于自行报告的指标或单一数据集上的预测。在这种范式下，模型被提交到云端进行评估，规避了在NLP基准测试中经常遇到的可重复性、可访问性和向后兼容性问题。这允许用户实时与上传的模型互动以评估其质量，并允许收集额外的指标，如内存使用、吞吐量和鲁棒性，这些指标尽管对实践者很重要，但传统上一直未出现在排行榜上。

2024-09-24 10:45:05 27

原创论文翻译：EMNLP-2023.CCF-A.Alon Jacovi.Stop Uploading Test Data in Plain Text: Practical Strategies for

随着在大型自动抓取的语料库上预训练的模型的兴起，数据污染已经成为一个普遍且具有挑战性的问题。对于封闭模型来说，训练数据变成了商业机密，即使是开放模型，检测污染也并非易事。诸如带有隐藏答案的排行榜，或者使用保证未被见过的测试数据这类策略，成本高昂，并且随着时间的推移变得脆弱。假设所有相关方都重视干净的测试数据，并愿意合作以减轻数据污染，我们可以做什么？我们提出了三种可以产生影响的策略：（1）公开的测试数据应使用公钥加密，并授权禁止衍生分发；（2）

2024-09-24 10:27:34 75

原创论文翻译：arxiv-2024.Tanmay Rajore.TRUCE: Private Benchmarking to Prevent Contamination and Improve

基准测试因其速度、可复制性和低成本而成为评估大型语言模型（LLM）的实际标准。然而，最近的研究指出，目前可用的大多数开源基准测试数据集已经被污染或泄露到LLM中，这意味着LLM在预训练和/或微调期间可以访问测试数据。这引发了对迄今为止进行的基准测试研究的有效性以及使用基准测试进行评估的未来严重担忧。为了解决这个问题，我们提出了私密基准测试，这是一种解决方案，其中测试数据集是私密的，并且模型在不向模型透露测试数据的情况下进行评估。

2024-09-24 09:09:01 18

原创论文翻译：arxiv-2023.Manley Roberts.Data Contamination Through the Lens of Time

关于大型语言模型（LLMs）令人印象深刻的能力的最近声明通常是通过评估公开可用的基准测试来支持的。由于LLMs在互联网的广泛领域上进行训练，这种做法引发了数据污染的担忧，即在训练数据中明确或隐式包含的示例上进行评估。数据污染出了名的难以衡量和缓解，即使有部分尝试，如对训练数据进行控制实验、使用金丝雀字符串或嵌入相似性，也是如此。在这项工作中，我们通过使用GPT模型训练截止日期的自然实验，首次对LLMs中的数据污染进行了全面的纵向分析，以观察随时间发布的基准测试。

2024-09-23 15:25:33 42

原创论文翻译：ACL-2024.Yiming Huang.Competition-Level Problems are Effective LLM Evaluators

大型语言模型（LLMs）展示了令人印象深刻的推理能力，然而，关于这些能力以及最近潜在的数据污染问题的争论仍在持续。本文旨在评估LLMs的推理能力，特别是在解决Codeforces中最近的竞赛级编程问题方面，这些问题是由专家精心设计且独特的，需要深入理解和强大的推理技能。我们首先对GPT-4在这项任务上的零样本（zero-shot）表现进行全面评估，考虑了问题发布时间、难度和遇到的错误类型等多个方面。令人惊讶的是，

2024-09-23 14:54:36 36

原创论文翻译：NeurIPS-2023.Lee A.Platypus: Quick, Cheap, and Powerful Refinement of LLMs

我们介绍了鸭嘴兽（Platypus），这是一个经过微调和合并的大型语言模型（LLM）系列，它在撰写本文时在HuggingFace的开放LLM排行榜上取得了最强性能并名列第一。在这项工作中，我们描述了（1）我们策划的数据集Open-Platypus，这是其他开放数据集的一个子集，我们将其公开发布（2）我们微调和合并LoRA模块的过程，以保留预训练LLMs的强大先验，同时将特定领域知识带到表面==（3）我们在检查训练数据中的测试数据泄露和污染方面的努力==，这可以为未来研究提供信息。

2024-09-23 13:23:12 63

原创论文翻译：EMNLP-2023.CCF-B.Kent K. Chang.Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4

在这项工作中，我们进行了数据考古学研究，通过使用名称填空成员推断查询来推断ChatGPT和GPT-4所知的书籍。我们发现，OpenAI模型已经记住了大量受版权保护的材料，记忆的程度与这些书籍的段落在网络出现的频率有关。这些模型对未知书籍集的记忆能力，使得文化分析的测量有效性评估变得复杂，因为它们污染了测试数据；我们表明，对于下游任务，模型在记忆书籍上的表现远胜于非记忆书籍。我们认为，这支持了开放模型的理由，即其训练数据是已知的。

2024-09-23 11:57:27 45

原创论文翻译：arxiv-2024.Yucheng L.An Open-Source Data Contamination Report for Large Language Models

随着大型语言模型的日益普及，模型评估中的数据污染问题变得越来越普遍。它允许模型通过记忆而非展示真正的能力来“作弊”。因此，污染分析已成为可靠模型评估的关键部分，以验证结果。然而，现有的污染分析通常由大型语言模型开发商内部进行，并且通常缺乏透明度和完整性。本文提出了一个广泛的数据污染报告，涵盖了六个流行的多项选择QA基准测试中的超过15个流行的大型语言模型。我们还介绍了一个开源流程，使社区能够在定制的数据和模型上进行污染分析。我们的实验揭示了基准测试中污染程度从1%到45%不等，并且污染程度随时间迅速增加。

2024-09-23 11:34:44 42

原创论文翻译：NAACL-2024.CCF-B.Chunyuan Deng.Investigating Data Contamination in Modern Benchmarks for Large

最近的观察强调了膨胀的基准测试分数与LLMs的实际性能之间的差距，引发了对评估基准可能受到污染的担忧。这个问题对于闭源模型和某些开源模型尤其关键，这些模型缺乏训练数据透明度。在本文中，我们通过提出两种方法来研究数据污染，这些方法既适用于开源也适用于专有LLMs。我们首先引入了一个基于检索的系统，探索评估基准和预训练语料库之间的潜在重叠。我们进一步提出了一种名为测试集槽位猜测（TS-Guessing）的新调查协议，适用于开源和专有模型。这种方法包括在多项选择问题中遮蔽一个错误答案，并提示模型填补空白。

2024-09-22 15:04:56 128

原创论文翻译：arxiv-2024.Ranaldi F.Investigating the Impact of Data Contamination of Large Language Models in

理解文本描述以生成代码似乎是指令遵循型大型语言模型（LLMs）在零样本场景下实现的能力。然而，存在一个严重的可能性，即这种翻译能力可能受到看到目标文本描述和相关代码的影响。这种效应被称为数据污染。在这项研究中，我们调查了数据污染对GPT3.5在文本到SQL代码生成任务中性能的影响。因此，我们引入了一种新的方法来检测GPT中的数据污染，并使用已知的Spider数据集和我们的新不熟悉的数据集Termite来检查GPT-3.5的文本到SQL性能。

2024-09-22 11:40:57 113

原创论文翻译：AAAI-2024.Li C.CCF-A.Task Contamination: Language Models May Not Be Few-Shot Anymore

大型语言模型（LLM）在各种零样本和少量样本任务中表现出令人印象深刻的性能。然而，它们在零样本或少量样本设置中的成功可能会受到任务污染的影响，这是一个尚未得到充分检验的潜在限制。本文调查了LLM在零样本和少量样本性能如何随着时间的推移而变化，以及随着时间的推移而发布的数据集和LLM的变化。利用GPT-3系列模型和其他几个最近开源的LLM，控制数据集难度，我们发现在LLM训练数据创建日期之前发布的数据集的表现比在LLM训练数据创建日期之后发布的数据集要好得多。

2024-09-22 11:11:38 330

原创 2024-9-18 大语言模型问题美团王兴:745万骑手获800亿报酬，人均多少问题

我就产生了个问题，745万骑手获800亿报酬，人均多少钱。我就把这个问题输入到各个大模型，结果答案不一致，并且差异还挺大的。

2024-09-18 12:11:15 265

原创论文翻译 ACL-2023.Justus Mattern.Membership Inference Attacks against Language Models via Neighbourhood

成员推理攻击（MIAs）旨在预测一个数据样本是否出现在机器学习模型的训练数据中，它们被广泛用于评估语言模型的隐私风险。大多数现有的攻击依赖于这样一个观察：模型倾向于为训练样本分配比非训练点更高的概率。然而，简单地将模型得分作为阈值来孤立判断，往往会导致高误报率，因为它没有考虑到样本的内在复杂性。最近的工作已经证明，通过将模型得分与在类似数据上训练的参考模型获得的得分进行比较，基于参考的攻击可以显著提高MIAs的性能。

2024-09-16 23:02:40 1082

原创论文翻译：arxiv-2024 Training on the Benchmark Is Not All You Need

Training on the Benchmark Is Not All You Needhttps://arxiv.org/pdf/2409.01790标题：基准测试并非你所需的全部摘要：大型语言模型（LLMs）的成功在很大程度上依赖于在预训练阶段学习的大量预训练数据。预训练过程的不透明性和训练数据使得许多基准测试的结果变得不可靠。如果任何模型在基准测试集上进行过训练，它将严重阻碍该领域的健康发展。为了自动化和高效地测试大型语言模型的能力，众多主流基准测试采用了多项选择格式。由于多项选择选项内容的

2024-09-14 07:23:23 1088

原创论文翻译：ACL-2024.Zeng Y.CCF-A How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to

大多数传统的AI安全研究将AI模型视为机器，并以安全专家开发的、以算法为中心的攻击为主。随着大型语言模型（LLM）变得越来越普遍和能干，非专家用户在日常互动中也可能带来风险。本文提出了一个新的视角，将LLM视为类人沟通者来越狱，以探索日常语言互动与AI安全之间被忽视的交叉点。具体来说，我们研究了如何说服LLM进行越狱。首先，我们提出了一个源自数十年社会科学研究的说服分类法。然后，我们将这个分类法应用于自动生成可解释的说服性对抗性提示（PAP）来越狱LLM。

2024-09-12 16:50:41 515

原创使用OpenCV进行模糊检测（拉普拉斯算子）

【代码】使用OpenCV进行模糊检测（拉普拉斯算子）

2024-09-12 15:56:08 419

原创论文翻译：ACL-2024 CCF-A radSafe: Detecting Jailbreak Prompts for LLMs via Safety-Critical Gradient

大型语言模型（LLMs）面临着越狱提示的威胁。现有的检测越狱提示的方法主要是在线内容审核API或微调后的LLMs。然而，这些策略通常需要广泛且资源密集的数据收集和训练过程。在这项研究中，我们提出了GradSafe，它通过仔细检查LLMs中安全关键参数的梯度来有效检测越狱提示。我们的方法基于一个关键的观察：越狱提示与遵从性回应（如“当然”）配对时，LLMs损失的梯度在某些安全关键参数上显示出相似的模式。相比之下，安全提示导致不同的梯度模式。

2024-09-12 12:58:11 546

原创论文翻译：IEEE-2023 Analyzing leakage of personally identifiable information in language models

语言模型（LM）已被证明可以通过句子级别的成员推断和重建攻击泄露训练数据信息。对LM泄露个人身份信息（Personally Identifiable Information, PII）的风险理解受到了较少的关注，这可以归因于错误地假设数据集策划技术（如擦除）足以防止PII泄露。擦除技术减少了但并未阻止PII泄露的风险：在实践中，擦除是不完美的，并且必须在最小化披露和保留数据集效用之间权衡。另一方面，尚不清楚算法防御措施（如差分隐私）在多大程度上防止了PII披露，这些措施旨在保证句子或用户级别的隐私。

2024-09-12 10:18:14 841

原创论文翻译：USENIX-2021 Extracting Training Data from Large Language Models

现在，发布在私有数据集上训练的大型（数十亿参数）语言模型已经变得很常见。本文展示了在这种设置中，攻击者可以通过查询语言模型来恢复个别训练样本，从而执行训练数据提取攻击。我们在GPT-2上展示了我们的攻击，GPT-2是一个在公共互联网抓取的数据上训练的语言模型，我们能够从模型的训练数据中提取数百个逐字文本序列。这些提取的示例包括（公共）个人身份信息（姓名、电话号码和电子邮件地址）、IRC对话、代码和128位UUID。即使在训练数据中每个上述序列只包含在一个文档中，我们的攻击也是可能的。

2024-09-12 09:50:47 1226

原创论文翻译：arxiv-2023 Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs

随着大型语言模型（LLMs）的快速发展，出现了新的、难以预测的有害能力。这要求开发者能够通过评估“危险能力”来识别风险，以便负责任地部署LLMs。在这项工作中，我们收集了第一个开源数据集，用于评估LLMs中的安全保障，并以低成本部署更安全的开源LLMs。我们的数据集经过策划和筛选，只包含负责任的语言模型不应遵循的指令。我们注释并评估了六个流行的LLMs对这些指令的响应。基于我们的注释，我们继续训练了几个类似BERT的分类器，并发现这些小型分类器在自动安全评估上能够取得与GPT-4相当的成果。

2024-09-11 15:03:29 614

原创论文翻译：ACM-2023 Not what you‘ve signed up for: Compromising real-world llm-integrated applications

大型语言模型（LLMs）正越来越多地被集成到各种应用程序中。最近的LLMs的功能可以通过自然语言提示灵活调节。这使它们容易受到针对性的对抗性提示的影响，例如，提示注入（PI）攻击使攻击者能够覆盖原始指令和使用的控制。到目前为止，人们一直假设是用户直接提示LLM。但是，如果不是用户提示呢？我们认为，集成了LLM的应用模糊了数据和指令之间的界限。我们揭示了新的攻击向量，使用间接提示注入，使对手能够在没有直接界面的情况下远程利用集成了LLM的应用，通过策略性地将提示注入到可能被检索的数据中。

2024-09-11 12:05:58 1036

原创论文翻译：arxiv-2022 Ignore Previous Prompt: Attack Techniques For Language Models

基于Transformer的大型语言模型（LLMs）为大规模面向客户的应用程序中的自然语言任务提供了强大的基础。然而，探索恶意用户互动中出现的漏洞的研究却很少。通过提出PROMPTINJECT，一个基于掩码的迭代对抗性提示组合的平淡对齐框架，我们检验了GPT-3（生产中部署最广泛的语言模型）如何容易被简单的手工输入所误导。特别是，我们研究了两种类型的攻击——目标劫持和提示泄露——并展示了即使是低能力的，但足够恶意的代理，也可以轻易利用GPT-3的随机性，造成长尾风险。

2024-09-11 11:12:57 1215

原创论文翻译：PMLR-2023 Automatically Auditing Large Language Models via Discrete Optimization

对大型语言模型进行审计以发现意外行为对于预防灾难性的部署至关重要，但这一任务仍然具有挑战性。在这项工作中，我们将审计视为一个优化问题，其中我们自动搜索匹配期望目标行为的输入-输出对。例如，我们可能旨在找到一个以“Barack Obama”开头的非毒性输入，而模型将其映射到一个有毒的输出。这个优化问题难以解决，因为可行点集稀疏，空间是离散的，而且我们审计的语言模型是非线性和高维的。为了应对这些挑战，我们引入了一个离散优化算法ARCA，它联合并高效地优化输入和输出。

2024-09-11 11:02:31 600

原创论文翻译：arxiv-2024 KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language

大型语言模型（LLMs）的自动评估方法受到数据污染的阻碍，导致对它们有效性的评估过高。现有的策略，旨在检测污染文本，专注于量化污染状态，而不是准确衡量模型性能。在本文中，我们介绍了KIEval，一个知识基础的交互式评估框架，首次引入了一个由LLM驱动的“交互者”角色，以实现动态的、抗污染的评估。从涉及特定领域知识的常规LLM基准测试中的问题开始，KIEval利用动态生成的、多轮次的、知识集中的对话来确定模型的回应是否仅仅是对基准答案的回忆，还是展示了在更复杂对话中应用知识的深层理解。

2024-09-07 21:06:22 621

原创论文翻译：arxiv-2024 Estimating Contamination via Perplexity: Quantifying Memorisation in Language Model

2024-09-07 21:03:49 577

原创论文翻译：arxiv-2024.Shahriar Golchin.Data Contamination Quiz: A Tool to Detect and Estimate

我们提出了数据污染测验（Data Contamination Quiz，DCQ），这是一种简单有效的检测大型语言模型（LLMs）中数据污染的方法，并估计污染的程度。具体来说，我们将数据污染检测构建为一系列多项选择问题，并设计了一种测验格式，其中从特定数据集分区（例如，GSM8k测试集）的每个子样本实例创建三个扰动版本。这些变化仅包括单词级别的扰动。生成的扰动，连同原始数据集实例，构成了DCQ中的选项，额外提供一个选项以容纳选择无提供选项的可能性。

2024-09-07 20:57:22 634

face-dataset img 人脸识别样例

face_dataset img 人脸识别样例

2022-11-30

人脸识别素材 4张人脸图

人脸识别素材 4张图

2022-11-29

22-8-6 mmaction2 slowfast训练配置训练日志分析

包含配置文件：训练日志：20220805_165139.log.json 训练配置：my_slowfast_kinetics_pretrained_r50_4x16x1_20e_ava_rgb.py 训练配置（为了测试训练集的效果）：my_slowfast_kinetics_pretrained_r50_4x16x1_20e_ava_rgb2.py

2022-08-06

22-8-4 mmaction2 slowfast训练日志

22-8-4 mmaction2 slowfast训练日志包含配置文件：my_slowfast_kinetics_pretrained_r50_4x16x1_20e_ava_rgb.py 训练结束后使用最好的checkpoint的参数进行测试，将测试结果存储在：part_0.pkl 训练过程的记录：20220804_185539.log.json

2022-08-05

archery.mp4 行为识别 pytorchvideo demo演示视频（行为识别）

https://pytorchvideo.org/docs/tutorial_torchhub_inference#load-an-example-video archery.mp4 pytorchvideo demo演示视频

2022-07-30

archery.mp4 行为识别 pytorchvideo demo演示视频（行为识别）

https://pytorchvideo.org/docs/tutorial_torchhub_inference#load-an-example-video archery.mp4 pytorchvideo demo演示视频

2022-07-30

pretrained model on ucf24

ucf_dla34_K7_rgb_coco.pth pretrained model on ucf24

2022-07-20

课堂学习行为测量系统的设计与实现_张鸿宇.caj

课堂是学校教育的核心，课堂教学过程评价对于教学质量的提高有重要意义，而学生的课堂行为表现是课堂教学评价的重要成分。通过评价学生的课堂行为，形成有效的反馈信息和教学导向，可以有效的促进课堂教学和学生的发展。因此，利用现在的计算机视觉技术和教学过程的相关测量手段相结合，对教室中的学生学习行为进行测量，形成对学生、对课堂的多维度的客观评价和反馈，对于提高课堂内的教学效率和教学质量有着重要的意义。本文在课堂学习场景下，研究了基于体感信息的学习者动作识别的算法以及相关应用系统的设计和实现。论文的主要贡献是设计并实现了课堂学习场景下基于体感信息的多学习者行为测量系统:针对的Kinect骨骼数据特点，本文提出了基于人体上肢骨骼结构的姿态识别方法，该方法通过选用结构向量间的向量角和向量模比值作为最终的姿态向量特征，采用SVM分类器对姿态向量特征进行分类和识别；实现了一个集数据采集、识别、记录、分析和展示于一体的课堂行为识别系统，对课堂交互活动行为分析和课堂整体活跃态势进行了分析，并使用该系统进行了针对学习者个人评价和针对课堂活跃度评价的实验。通过测试结果表明，本文提出的姿态识别方法能有效地识别多个学习者的举手、正坐和低头等姿态，该课堂行为识别系统具有一定的实用性；通过模拟课堂实验得出对于学生个人的参与度评价、每道题的难度评价、整个课堂活跃度的评价的实验性结论，对于课堂教学过程评价具有一定的参考意义。

2021-04-15

基于深度学习的行为检测方法综述_高陈强.caj

行为检测在自动驾驶、视频监控等领域的广阔应用前景使其成为了视频分析的研究热点。近年来，基于深度学习的方法在行为检测领域取得了巨大的进展，引起了国内外研究者的关注，对这些方法进行了全面的梳理和总结，介绍了行为检测任务的详细定义和面临的主要挑战; 从时序行为检测和时空行为检测 2 个方面对相关文献做了细致地分类，综合分析了每一类别中不同研究方法的思路和优缺点，并阐述了基于弱监督学习、图卷积神经网络、注意力机制等新兴研究话题的相关方法; 介绍了行为检测领域常用的数据集以及性能评估指标，在这些数据集上比较了几种典型方法的性能; 总结了当前行为检测方法需要解决的问题以及进一步发展的研究方向。

2020-12-25

机器人抓取检测技术的研究现状_刘亚欣.caj

基于学习的方法机器学习方法已被证明对广泛的感知问题有效[32-36], 允许感知系统学习从一些特征集到各种视觉特性的映射[37]. 研究人员更是将深度学习引入抓取检测中,将学习方法应用于视觉中,引入学习方法对抓取质量进行评分[38]. 近期的文献采用了更丰富的特征和学习方法,允许机器人抓取部分被遮挡的已知物体[39] 或已知物体未知姿态[40] 以及系统之前未见过的全新物体(未知物体)[41],本文将讨论后一种情况. 早期的工作集中在仅从2D部分视图数据中检测单个抓取点,使用启发式方法基于此点确定机械手姿态[41]. 由于只有二维信息,第三维度的距离必须是固定的,抓取具有局限性,而3D数据的

2020-12-11

Real-Time Grasp Detection Using Convolutional Neural Networks

我们提出一种准确而且可以达到实时性能要求基于卷积神经网络的，机器人抓取检测方法。我们的抓取方法没有使用常见的滑动窗口或者区域选择技术，我们的网络只是使用single-stage回归去找到可抓取的包围检测框。模型的表现性能比当前最先进的方法也要高出十四个百分点（我想这里应该说的是准确率）。同时可以在单张GPU上能达到每秒十三帧图像的性能。我们的网络可以在对物体进行分类的同时，也可以做到找出可抓取部位的检测矩形框。在这个模型上我们也做了一些修改，使它可以对单个物体上预测多个抓取部位，实现的方法是基于一个局部受限预测机制，基于该机制的模型表现更好，尤其是物体有多个抓取方式的时候。

2020-12-10

苹果采摘机器人末端执行器无损主动抓取技术研究

在果蔬生产过程中，采摘环节是最耗时和耗力的环节，人工采摘的成本约占整个生产成本的 50%～70%。开展采摘机器人研究，不仅有利于解决人口老龄化和社会城镇化导致的劳动力日益短缺问题，还能促进我国农业科技进步，加速实现农业现代化。由于果蔬组织柔软、易损伤且生长程度不一，相互差异较大，导致采摘的损伤率较高。因此开展末端执行器抓取规划和控制策略的研究对实现采摘机器人的无损采摘具有重要意义，本文从采摘机器人末端执行器稳定抓取规划以及抓取力主动柔顺控制两个角度出发对采摘机器人无损抓取技术进行研究，主要研究内容如下： (2) 以力封闭作为理论基础，分析了两指稳定抓取条件，制定了两指稳定抓取策略。同时根据三

2020-11-24

基于卷积神经网络的二指机械手抓取姿态生成研究_李耿磊

本课题立足机械手自主抓取，研究利用卷积神经网络实现物体表面抓取点生成的解决方案。本课题以场景的深度图像作为输入信息，采取 “先采样，后预测”的两步走抓取生成方案。首先利用 Laplace 方法在深度图像中提取物体边缘像素点，并利用对跖法生成抓取空间；然后基于重要性采样方法从抓取空间中采样获得候选抓取集，最后利用训练好的抓取预测卷积神经网络模型预测候选集每个抓取的成功置信度，取其中极大者作为结果指导机器人完成抓取。为将卷积神经网络应用于抓取预测，本课题建立了基于卷积神经网络的抓取预测模型。将抓取预测问题抽象为深度学习中的分类问题，网络输出为某抓取点属于成功抓取的置信度。本课题定义一组抓取为

2020-11-22

室内环境下移动机械臂的目标抓取技术.caj

随着科学技术的发展，机器人在人类的生产生活中扮演着越来越重要的角色。移动机械臂是指以移动机器人为平台，在平台上安装机械臂的设备。移动机械臂不仅具有移机器人的环境感知和自主导航功能，还具有机械臂灵活的操作能力，被广泛的应用于工业生产、智能服务、太空工作及侦查排爆等领域。本文以移动机械臂的侦察排爆为背景，围绕移动机械臂的目标抓取任务，重点研究室内环境中移动机械臂的建图与导航、目标检测与抓取等关键技术。本文的主要工作包括以下几个方面：（1）在Turtlebot2移动机器人平台上搭建PhantomX_ARM机械臂构成移动机械臂，并搭建 RPLIDAR A2 激光雷达传感器与 Xt

2020-11-20

智能工业机器人的环境感知与运动规划.caj

智能机器人是指能够自主完成特定任务的机器人，而对环境感知和运动规划的研究则有助于提高机器人的自主性，使其更加智能化。环境感知主要是通过各类视觉传感器采集点云或图像数据，并由计算机进行分析处理后，使机器人系统能够获得环境中物体的各类信息。运动规划则是在环境感知的基础上，通过规划出一条无碰轨迹来实现机器人的运动控制。本文首先介绍各类传感器的标定方法，用以实现不同数据在坐标系下的统一。在分析现有标定算法的基础上，利用 Navy 手眼标定法优化计算最小二乘解，从而使标定精度达到毫米级；而基于两步法的单线激光传感器标定方法则是在保证精度足够的前提下，有效地减少了计算量，从而提高了算法效

2020-11-19

_移动机器人SLAM与路径规划方法研究.caj

自动搬运是现代物流仓库实现自动化、智能化的基础。自主移动机器人 相对于传送带与传统ＡＧＶ，面对未知环境有探索和决策能力，具有柔性强、 可重构环境的优点。本文对自主移动机器人同时定位与地图构建、路径规 划方法进行了深入研巧，主要内容如下： 首先，同时定位与地图构建方法研究。建立了本研究的系统模型Ｗ及 同时定位与建图的数学模型，分析其关键问题。然后，分别对郎Ｆ－ＳＬＡＭ和 ＦＡＳＴ－ＳＬＡＭ算法进行原理分析和仿真分析。仿真实验表明；两种算法均可Ｗ 取得较好仿真效果，但ＦＡＳＴ－ＳＬＡＭ算法的追踪误差较小、更适应实际环境。其次，提出了蜘蛛群居算法的改进策略。为了提高

2020-11-16

基于ROS视觉定位的机器人智能抓取系统研究_王海玲

随着科技的飞速发展,机器人应用变得越加广泛。如今,在线示教和离线编程是工业生产线中控制机器人常见的控制方式,但是由于受到抓取目标物体的初始位姿和最终位姿被严格限定的问题,只能依靠机械完成机器人点到点的操纵,全程所用时间长、操作效率低以及定位准确度也低,因此,机器人在智能化程度上有一定程度的欠缺。在此问题的基础上,本课题提出一套基于ROS（机器人操作系统）视觉定位的机械臂智能抓取系统,使抓取目标的初始位姿和最终位姿被严格限定的问题得到解决。首先,采用张正友算法标定RGB-D相机,获取其内外参数;其次,采用棋盘格与AR标签两种方法,实现手眼标定;然后,通过多模态信息进行物体的识别与位姿估计;最终,

2020-11-06

SLAM第四讲作业及资料.zip

我们在现实生活中能看到大量的照片。在计算机中，一张照片由很多个像素组成，每个像素记录了色彩或亮度的信息。三维世界中的一个物体反射或发出的光线，穿过相机光心后，投影在相机的成像平面上。相机的感光器件接收到光线后，产生了测量值，就得到了像素，形成了我们见到的照片。这个过程能否用数学原理来描述呢？本讲，我们首先讨论相机模型，说明投影关系具体如何描述，相机的内参是什么。同时，简单介绍双目成像与 RGB-D 相机的原理。然后，介绍二维照片像素的基本操作。最后，我们根据内外参数的含义，演示一个点云拼接的实验

2020-06-16

第四讲：相机模型与非线性优化.pptx

2020-06-16

SLAM第三讲作业资料.zip

上一讲，我们介绍了三维世界中刚体运动的描述方式，包括旋转矩阵、旋转向量、欧拉角、四元数等若干种方式。我们重点介绍了旋转的表示，但是在 SLAM 中，除了表示之外，我们还要对它们进行估计和优化。因为在 SLAM 中位姿是未知的，而我们需要解决什么样的相机位姿最符合当前观测数据这样的问题。一种典型的方式是把它构建成一个优化问题，求解最优的 R; t，使得误差最小化。如前所言，旋转矩阵自身是带有约束的（正交且行列式为 1）。它们作为优化变量时，会引入额外的约束，使优化变得困难。通过李群——李代数间的转换关系，我们希望把位姿估计变成无约束的优化问题，简化求解方式。由于读者可能还没有李群李代数的基本知识，我们将从最基本的开始讲起。

2020-06-10

mobilenet-v2-b0353104 resnet18-5c106cde resnet34-333f7ec4 预训练模型

mobilenet_v2-b0353104.pth、resnet18-5c106cde.pth、resnet34-333f7ec4.pth 预训练模型

2024-09-24

Transformer 论文+李沐视频+李宏毅视频代码逐行跟踪

2024-09-10

生成式人工智能对课堂教学的变革影响文 - 孙众

人工智能的发展经历了从计算智能、感知智能到认知智能的三代进化历程。当机器已具备认知智能时，若课堂教学仍以布卢姆认知目标分类法为理论指导，以培养学生认知能力为主要目标，必然面临重大危机。要实现生成式人工智能深度融入学校教育教学，为课堂教学带来教育新质生产力，文章提出“四个更重要” 的教学主张：掌握专家思维比专家结论更重要；经历学习过程比呈现学习结果更重要；改变评价理念比改变评价形式更重要；重视科学教育的同时，培养人文精神更重要。关键词：生成式人工智能；认知智能；认知目标分类；课堂教学

2024-08-28

我国 2013-2023 年课堂视频分析的研究现状 * -基于 CiteSpace 的可视化林芷洁，杨玉宝

我国2013-2023年课...CiteSpace的可视化_林芷洁【摘要】课堂视频分析已成为教师、学生、教育管理者数字素养提升和实现教育高质量发展的重要工具。为探究国内课堂教学视频分析研究的现状，文章以中国知网 2013-2023 年收录的 276 篇核心文献为计量分析对象，通过 CiteSpace 可视化分析，发现“视频分析”“课堂互动”“话语分析”和“人工智能”等成为课堂视频分析的研究热点，且在分析技术和分析工具及应用效果等方面取得了显著进展，特别是人工智能技术有望成为推动该领域发展的新技术。未来，需要扩大课堂视频分析的研究范围，挖掘和设计以深度学习为导向更能反映学科特点的视频分析编码系统，聚焦师生的数字素养提升，助力新质生产力的发展。【关键词】课堂视频分析；可视化分析；课堂互动；CiteSpace

2024-08-28

表情分类模型-基于人脸 emotion.pth

['angry', 'disgust', 'fear', 'happy', 'neutral', 'sad', 'surprise']

2024-08-20

生成式 AI 商业落地白皮书给 CXO 的 AI 转型战术指南

生成式 AI 商业落地白皮书给 CXO 的 AI 转型战术指南 01 场景案例大全 Gen-AI 240 应用全场景地图消费零售金融汽车医药大健康智能终端教育和科研制造企业服务案例 01 飞鹤“3+3+2”战略蓝图 AI 能力中台建设案例 05 汽车销售顾问的强大助手“SalesCopilot” 案例 02 海底捞 x 豆包大模型智慧洞察用户需求案例 03 海尔消金携手火山引擎，共建消费金融大模型案例 04 捷途汽车 x 豆包大模型打造智能客服“AI 小捷” 案例 06 北京协和医院基于豆包大模型和 HiAgent 研发智能运维助手和 HIS 指南针案例 08 OPPO × 火山引擎通过大模型强化手机终端识别、理解和响应用户需求的能力案例 10 面向生物医学领域打造一站式、智能化 AI 操作系统 Bio-OS 案例 09 华硕与火山引擎合作将大模型集成至“豆叮 AI 助手” 案例 11 火山引擎助力南开大学打造“AI + 教育”新生态案例 12 大模型改善企业信息搜索体验案例 13 豆包大模型助力晓多科技“AI 训练场与全渠道智能知识库”智

2024-07-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

face-dataset img 人脸识别 样例

人脸识别素材 4张人脸图

22-8-6 mmaction2 slowfast训练配置 训练日志分析

22-8-4 mmaction2 slowfast训练日志

archery.mp4 行为识别 pytorchvideo demo演示视频（行为识别）

archery.mp4 行为识别 pytorchvideo demo演示视频（行为识别）

pretrained model on ucf24

课堂学习行为测量系统的设计与实现_张鸿宇.caj

基于深度学习的行为检测方法综述_高陈强.caj

机器人抓取检测技术的研究现状_刘亚欣.caj

Real-Time Grasp Detection Using Convolutional Neural Networks

苹果采摘机器人末端执行器无损主动抓取技术研究

基于卷积神经网络的二指机械手抓取姿态生成研究_李耿磊

室内环境下移动机械臂的目标抓取技术.caj

智能工业机器人的环境感知与运动规划.caj

_移动机器人SLAM与路径规划方法研究.caj

基于ROS视觉定位的机器人智能抓取系统研究_王海玲

SLAM第四讲作业及资料.zip

第四讲：相机模型与非线性优化.pptx

SLAM第三讲作业资料.zip

mobilenet-v2-b0353104 resnet18-5c106cde resnet34-333f7ec4 预训练模型

Transformer 论文+李沐视频+李宏毅视频 代码逐行跟踪

生成式人工智能对课堂教学的变革影响 文 - 孙 众

我国 2013-2023 年课堂视频分析的研究现状 * -基于 CiteSpace 的可视化林芷洁，杨玉宝

表情分类模型-基于人脸 emotion.pth

生成式 AI 商业落地白皮书 给 CXO 的 AI 转型战术指南

读论文Rethinking the Role of Demonstrations What Makes In-Context

读论文Rethinking the Role of Demonstrations What Makes In-Context

YOLOv8 代码包 修改版

ckpt.t7 DHN.pth osnet-x0-25.pth yolov7

ckpt.t7 DHN.pth osnet-x0-25.pth yolov7

rfb-face-mask.pth

latest-model-099-94.7200.pth

best.pth.tar

aflw2000-data.zip

3dmm-data.zip

EGE C/C++ 贪吃蛇

适用于Yolo训练和测试的coco数据集标签文件 train2017.txt和val2017.txt

yolov7 hand detection

Youtube-Hands yolov7 detection

空空如也

face-dataset img 人脸识别样例

22-8-6 mmaction2 slowfast训练配置训练日志分析

Transformer 论文+李沐视频+李宏毅视频代码逐行跟踪

生成式人工智能对课堂教学的变革影响文 - 孙众

生成式 AI 商业落地白皮书给 CXO 的 AI 转型战术指南

YOLOv8 代码包修改版