- 博客(269)
- 资源 (27)
- 收藏
- 关注
原创 自定义ava数据集及训练与测试 完整版 时空动作/行为 视频数据集制作 yolov5, deep sort, VIA MMAction, SlowFast
前言这一篇博客应该是我花时间最多的一次了,从2022年1月底至2022年4月底。我已经将这篇博客的内容写为论文,上传至arxiv:https://arxiv.org/pdf/2204.10160.pdf欢迎大家指出我论文中的问题,特别是语法与用词问题在github上,我也上传了完整的项目:https://github.com/Whiffe/Custom-ava-dataset_Custom-Spatio-Temporally-Action-Video-Dataset关于自定义ava数据集,也是后台
2022-04-24 18:34:15 29985 149
原创 论文翻译:A survey on large language model (LLM) security and privacy: The Good, The Bad, and The Ugly
大型语言模型(LLMs),如ChatGPT和Bard,已经彻底改变了自然语言理解和生成。它们具有深度语言理解能力、类似人类的文本生成能力、上下文意识和强大的问题解决技能,使它们在各个领域(例如搜索引擎、客户支持、翻译)中变得不可或缺。同时,LLMs也在安全领域获得了关注,揭示了安全漏洞并展示了它们在安全相关任务中的潜力。本文探讨了LLMs与安全性和隐私的交集。具体来说,我们研究了LLMs如何积极影响安全性和隐私,与它们使用相关的潜在风险和威胁,以及LLMs内部的固有漏洞。
2024-08-05 12:38:19 655
原创 论文翻译:ChatGPT: Bullshit spewer or the end of traditional assessments in higher education?
ChatGPT 迄今为止是世界上最先进的聊天机器人。与其他聊天机器人不同,它可以在几秒钟内创造令人印象深刻的散文,并在高等教育中的学生评估以及其他许多问题上引起了大量炒作和末日预言。ChatGPT 是一种最先进的语言模型(OpenAI的生成预训练变换器(GPT)语言模型的一个变体),旨在生成可以与人类写作的文本无法区分的文本。它可以以一种看似自然直观的方式与用户进行对话。在本文中,我们简要讲述了ChatGPT背后的组织OpenAI的故事。我们强调了从一个非营利组织到商业商业模式的根本变化。
2024-08-04 11:38:45 1032
原创 论文翻译:Large Language Models in Education: Vision and Opportunities
随着人工智能技术的快速发展,大型语言模型(LLMs)已成为研究热点。教育在人类社会发展和进步中扮演着重要角色。传统教育面临诸如学生个体差异、教学资源分配不足、教学效果评估等挑战。因此,LLMs在数字/智能教育领域的应用前景广阔。教育大型模型(EduLLMs)的研究不断发展,提供了实现个性化学习、智能辅导和教育评估目标的新方法和途径,从而提高教育质量和学习体验。本文旨在调查和总结LLMs在智能教育中的应用。首先介绍了LLMs的研究背景和动机,并解释了LLMs的本质。
2024-08-02 22:13:37 731
原创 论文阅读:HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face
解决涉及不同领域和模态的复杂AI任务是实现通用人工智能的关键步骤。尽管目前有众多针对不同领域和模态的AI模型,但它们无法自主处理复杂的AI任务。鉴于大型语言模型(LLMs)在语言理解、生成、交互和推理方面表现出色,我们主张LLMs可以作为控制器来管理现有的AI模型解决复杂任务,语言则作为一种通用接口来实现这一目标。基于这一理念,我们提出了HuggingGPT,这是一个由LLM驱动的代理,利用LLMs(例如ChatGPT)连接机器学习社区(例如Hugging Face)中的各种AI模型来解决AI任务。
2024-08-02 21:26:04 1145
原创 论文阅读:Mammoth: Building math generalist models through hybrid instruction tuning
我们介绍了MAmmoTH,一系列特别为通用数学问题解决而设计的开源大型语言模型(LLMs)。MAmmoTH模型是在我们精心策划的指令调优数据集MathInstruct上训练的。MathInstruct是由13个数学数据集组成的,其中包含中间推理过程,我们新策划了其中的六个。它展示了思维链(CoT)和程序思维(PoT)推理的独特混合,并且确保了在数学领域广泛的多样性覆盖。CoT和PoT的混合不仅释放了工具使用的潜力,还允许对不同的数学问题采取不同的思维过程。
2024-08-02 16:48:54 987
原创 论文阅读:ChatGPT for good? On opportunities and challenges of large language models for education Author
高引用论文:ChatGPT for good?这篇论文探讨了大型语言模型(LLMs)在教育领域的应用、机遇、挑战以及未来的研究方向。综上所述,论文全面分析了大型语言模型在教育中的应用前景,并提出了实现其潜力所需注意的问题和未来的研究方向。
2024-08-02 11:38:13 352
原创 论文翻译:ChatGPT for good? On opportunities and challenges of large language models for education Author
大型语言模型代表了人工智能领域的一项重要进步。其底层技术是进一步创新的关键,尽管在社区和地区内存在批评观点甚至禁令,但大型语言模型将持续存在。这篇评论文章介绍了大型语言模型在教育应用中的潜在好处和挑战,从学生和教师的角度出发。我们简要讨论了大型语言模型及其应用的现状。然后,我们强调了这些模型如何用于创建教育内容,提高学生的参与度和互动性,以及个性化学习体验。关于挑战,我们认为教育中的大型语言模型需要教师和学习者发展一套必要的能力与素养,以理解技术及其限制和这些系统的意外脆弱性。
2024-08-02 11:36:04 779
原创 论文阅读:Adapting Large Language Models for Education: Foundational Capabilities, Potentials, and Challe
论文提出了未来研究的方向,包括改进LLMs的集成方法、提高跨学科能力、增强学生个性化体验、确保内容的公正性和准确性,以及开发新的技术和方法来应对上述挑战。:论文强调了LLMs在教育中的变革潜力,它们能够提供个性化的学习体验,辅助教师进行课程设计和学生评估,并有可能改变传统的教育模式。:论文总结了LLMs在教育领域的应用前景,并指出为了实现这一潜力,需要对当前的技术和方法进行进一步的研究和开发。整体来看,论文提供了对LLMs在教育领域应用的全面分析,并指出了实现其潜力所需克服的关键问题和未来研究的方向。
2024-08-01 11:57:21 339
原创 论文翻译:Adapting Large Language Models for Education: Foundational Capabilities, Potentials, and Challe
在线教育平台利用互联网分发教育资源,旨在提供便捷的教育,但通常在与学生的实时交流中表现不足。它们往往难以解决学生在学习过程中遇到的多样化障碍。解决学生遇到的问题对于传统的深度学习模型来说是一个重大挑战,因为这不仅需要广泛的学科知识,还需要理解构成学生个体困难的因素。这对传统机器学习模型来说具有挑战性,因为它们缺乏理解学生个性化需求的能力。最近,大型语言模型(LLMs)的出现提供了解决这一问题的可能性,通过理解个体请求。
2024-08-01 11:52:42 281
原创 论文阅读:The step-by-step code generation and self-debugging mechanisms highlight the critical role of c
这篇论文探讨了如何通过使用GPT-4代码解释器(GPT4-Code)来解决具有挑战性的数学文字问题,特别是引入了一种新颖的提示方法——显式基于代码的自我验证(Explicit Code-based Self-verification, CSV),以增强模型的数学推理能力。:最后,模型使用加权多数投票机制,根据验证结果的不同状态(真、不确定、假)为每个可能的答案分配不同的权重,以提高整体答案的准确性。:模型随后编写额外的代码,目的是通过执行这段代码来验证上一步生成的答案的正确性。
2024-08-01 10:20:57 231
原创 论文翻译:The step-by-step code generation and self-debugging mechanisms highlight the critical role of c
最近,在大型语言模型(LLMs)如GPT-4和PaLM-2方面取得的进展,在解决数学推理问题上带来了显著的进步。特别是,OpenAI的最新版GPT-4,被称为GPT-4代码解释器,在具有挑战性的数学数据集上表现出色。在本文中,我们通过在GPT-4代码解释器上引入不同的代码使用频率约束,探索了代码对增强LLMs推理能力的影响。我们发现其成功在很大程度上归功于其生成和执行代码的强大技能,评估代码执行的输出,并在接收到不合理的输出时纠正其解决方案。
2024-08-01 10:14:25 797
原创 论文阅读:Evaluating Reading Comprehension Exercises Generated by LLMs: A Showcase of ChatGPT in Educatio
这篇论文探讨了如何利用预训练的大型语言模型(LLMs),特别是OpenAI的ChatGPT,来生成适合中国中学生的高质量、个性化的阅读理解练习。研究团队开发了一个系统,通过精心设计的提示,指导ChatGPT生成连贯且多样化的阅读材料和相应的多项选择题。论文强调了AI技术在教育领域的应用前景,并展示了ChatGPT作为教育工具的有效性,同时也指出了需要进一步研究和改进的地方。:介绍了阅读理解对英语学习者的重要性,并指出了当前教育实践中使用过时阅读材料的问题。
2024-07-31 18:13:12 486
原创 论文翻译:Evaluating Reading Comprehension Exercises Generated by LLMs: A Showcase of ChatGPT in Educatio
最近预训练的大型语言模型(LLMs),例如OpenAI的ChatGPT,已经在各个领域引起了变革。例如,在教育领域开发利用LLMs语言能力的智能系统显示出明显的潜力。尽管研究人员最近探索了ChatGPT可能如何协助学生学习,但很少有研究将这些技术应用于涉及教师和学生的现实课堂环境。在这项研究中,我们实施了一个阅读理解练习生成系统,为中国的中学英语学习者提供高质量和个性化的阅读材料。对生成的阅读段落和相应的练习问题进行了广泛的自动和手动评估,证明系统生成的材料适合学生,甚至超过了现有的人工编写材料的质量。
2024-07-31 18:11:28 1142
原创 大模型-鲁棒性总结-2024-7-28
大语言模型(LLMs)的鲁棒性(Robustness of Large Models)指的是大规模机器学习模型在面对输入数据的变化、噪声或攻击时,仍然能够保持其性能和稳定性的能力。这在实际应用中非常重要,因为真实世界的数据往往是嘈杂的、不可预测的,并且有时可能包含恶意攻击。以下是一些关键点来解释LLMs的鲁棒性:对噪声的鲁棒性:LLMs需要能够处理数据中的噪声,如输入数据中的随机误差或异常值。例如,在图像分类任务中,图像可能会包含噪声或失真,LLMs应当能够正确分类这些图像。
2024-07-28 15:34:27 969
原创 论文阅读:Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models
大型语言模型(LLMs)在自然语言处理任务中取得了显著成就,但它们生成的文本中存在“幻觉”问题,即生成与输入源不一致或不忠实的内容,这可能导致严重后果。特别是在需要事实准确性的领域,如医学和金融,幻觉的存在严重阻碍了LLMs的应用。论文得出结论,RelD是一个有效的工具,能够检测LLMs生成的可靠答案,并为减轻幻觉提供了有希望的方向。未来的工作可能会集中在进一步提高RelD的性能,以及探索更深层次的语义关系和上下文理解,以提高幻觉检测的准确性和鲁棒性。
2024-07-28 14:24:58 393
原创 论文阅读:Examining the robustness of LLM evaluation to the distributional assumptions of benchmarks
大型语言模型(LLMs)在自然语言处理领域取得了显著进展,但它们的评估方法存在挑战。传统的评估方法通常假设基准测试中的提示是独立同分布(i.i.d.)的样本,这种假设可能不准确,因为实际应用中提示的分布可能因用例而异。因此,研究者们提出了研究LLMs评估的鲁棒性,特别是针对基准测试中提示的分布假设。论文主要研究了以下问题:基准测试中的提示权重是否对模型的评估结果有显著影响;这篇论文主要探讨了大型语言模型(LLMs)在基准测试中的评估问题,特别是关注了基准测试中提示的分布假设对模型评估的影响。
2024-07-28 14:05:36 384
原创 论文阅读:Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis, and LLMs Evaluations
这篇论文主要探讨了自然语言处理(NLP)中大型预训练语言模型(PLMs)在面对分布外(OOD)数据时的鲁棒性问题。
2024-07-27 15:58:21 269
原创 Week 8-杨帆-学习总结
BERT(Bidirectional Encoder Representations from Transformers)是一种基于Transformers的双向编码器表示,它通过预训练任务学习到的深层双向表示,极大地提升了自然语言处理任务的性能。BERT(Bidirectional Encoder Representations from Transformers)是一种预训练语言表示模型,通过在大量文本上预训练得到的语言模型,可以在多种下游任务中获得良好的性能。
2024-07-27 13:34:38 480
原创 论文阅读:Can LLM Replace Stack Overflow? A Study on Robustness and Reliability of Large Language Model C
作者创建了 RobustAPI,一个包含 1208 个 Stack Overflow 上的问题和相关 Java API 的数据集,用以评估 LLMs 生成的代码的可靠性和鲁棒性。整体来看,这篇论文强调了在软件开发中使用 LLMs 时需要考虑的代码质量与安全性问题,并提供了一个评估和改进这些模型的框架。:提出了改进生成代码质量的方法,包括上下文学习、微调和预训练,并强调了评估和改进 LLMs 在现实世界软件开发中的重要性。
2024-07-27 11:00:55 292
原创 论文阅读:GSM-PLUS: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Probl
这篇论文介绍了一个名为GSM-PLUS的基准测试,它旨在全面评估大型语言模型(LLMs)解决数学问题时的鲁棒性。
2024-07-26 19:10:43 405
原创 论文阅读:Eight Methods to Evaluate Robust Unlearning in LLMs
然后,他们以Eldan和Russinovich在2023年提出的“Who’s Harry Potter”(WHP)模型为研究对象,进行了一系列的测试,以评估该模型的遗忘效果是否鲁棒和有竞争力。此外,这些模型可能在某些情况下展现出不期望的行为。:研究者们想要评估LLMs的遗忘技术,确保这些模型在遗忘特定知识后,依然能够在其他任务上保持竞争力,并且遗忘的知识不容易被重新提取。总的来说,这篇论文深入探讨了LLMs的遗忘技术,并对其有效性和局限性进行了全面的评估,为未来在这一领域的研究提供了宝贵的见解和建议。
2024-07-26 17:41:17 365
原创 大模型-鲁棒性总结-2024-7-21
大语言模型(LLMs)的鲁棒性(Robustness of Large Models)指的是大规模机器学习模型在面对输入数据的变化、噪声或攻击时,仍然能够保持其性能和稳定性的能力。这在实际应用中非常重要,因为真实世界的数据往往是嘈杂的、不可预测的,并且有时可能包含恶意攻击。以下是一些关键点来解释LLMs的鲁棒性:对噪声的鲁棒性:LLMs需要能够处理数据中的噪声,如输入数据中的随机误差或异常值。例如,在图像分类任务中,图像可能会包含噪声或失真,LLMs应当能够正确分类这些图像。
2024-07-25 19:47:17 741
原创 教育+大模型-可解释-2024-7-15
随着人工智能技术的飞速发展,大型语言模型(LLMs)在教育领域的应用日益广泛,展现出改善教学方法和提供个性化学习体验的巨大潜力。这些模型以其在自然语言处理方面的卓越能力,为教育带来了革命性的变革。然而,LLMs的复杂性和不透明性,特别是它们的内部机制仍然不清晰,引发了对其可解释性的广泛关注。这种缺乏透明度不仅为下游应用带来了风险,而且限制了它们的广泛应用,需要通过可解释性来确保应用安全、克服性能限制,并控制社会影响。
2024-07-25 19:45:14 473
原创 论文阅读:A Survey on Evaluation of Large Language Models-鲁棒性相关内容
Wang等人(2023c)是一项早期工作,使用AdvGLUE (Wang等人,2021)、ANLI (Nie等人,2019)和DDXPlus (Fansi Tchango等人,2022)数据集等现有基准,从对抗性和OOD角度评估了ChatGPT和其他LLMs。卓等人(2023b)评估了语义解析的鲁棒性。评估系统面对意外输入的稳定性是鲁棒性研究的核心,主要从对抗鲁棒性和出分布泛化两方面考察大语言模型,发现当前模型对对抗性提示和视觉输入显著脆弱,提示模型在部署中面临安全隐患,需要继续提高模型的鲁棒性。
2024-07-25 15:35:05 533
原创 论文翻译:GSM-PLUS: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Probl
大型语言模型(LLMs)在各种数学推理基准测试中取得了令人印象深刻的表现。然而,关于这些模型是否真的理解并应用数学知识,还是仅仅依赖于数学推理的捷径,争论越来越多。一个关键且频繁出现的证据是,当数学问题稍有变化时,LLMs可能会出现不正确的行为。这激励我们通过测试广泛的数学问题范围,包括GSM8K(Cobbe等人,2021年)、高中数学MATH(Hendrycks等人,2021年)和大学数学定理问答Theoremqa(Chen等人,2023年),来评估LLMs数学推理能力的鲁棒性。
2024-07-25 10:17:07 809
原创 论文翻译:Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis, and LLMs Evaluations
本文重新审视了自然语言处理领域中关于分布外(OOD)鲁棒性的研究。我们发现,先前研究中的分布偏移设置通常缺乏足够的挑战,阻碍了对OOD鲁棒性准确评估。为了解决这些问题,我们提出了一种基准构建协议,确保清晰的区分和具有挑战性的分布偏移。然后我们介绍了BOSS,一个用于分布外鲁棒性评估的基准测试套件,涵盖5个任务和20个数据集。基于BOSS,我们对预训练语言模型进行了一系列的实验,分析和评估OOD鲁棒性。首先,对于普通的微调,我们检查了分布内(ID)和OOD性能之间的关系。
2024-07-24 20:06:22 933
原创 翻译论文:Examining the robustness of LLM evaluation to the distributional assumptions of benchmarks
基准测试已成为评估大型语言模型(LLMs)的核心方法。研究界通常依赖模型在基准测试提示上的平均表现来评估模型的性能。这与假设基准测试中的测试提示是来自感兴趣的现实世界分布的随机样本一致。我们注意到这通常并非事实;相反,我们认为感兴趣的分布根据特定用例而变化。我们发现(1)模型在测试提示上的表现之间的相关性是非随机的,(2)考虑测试提示之间的相关性可以改变主要基准测试上的模型排名,(3)这些相关性的解释因素包括语义相似性和常见的LLM失败点。
2024-07-24 10:37:20 739
原创 翻译论文:Eight Methods to Evaluate Robust Unlearning in LLMs
机器遗忘对于从大型语言模型(LLMs)中移除有害能力和记忆文本可能是有用的,但目前还没有标准化的方法来严格评估它。在本文中,我们首先调查了现有遗忘评估的技术和局限性。其次,我们对Eldan和Russinovich(2023年)的“谁是哈利·波特”(WHP)模型中的遗忘的鲁棒性和竞争力进行了全面的测试。
2024-07-23 17:24:00 547
原创 论文翻译:Automatic Lesson Plan Generation via Large Language Models with Self-critique Prompting
在本文中,我们利用大型语言模型(LLMs)的理解和生成能力来自动生成定制化的课程计划。这解决了传统计划可能无法充分满足不同教学环境和学生群体的特定需求的常见挑战。我们提出了一个新颖的三阶段过程,包括使用检索增强生成(RAG)逐步生成课程计划的每个关键组成部分,通过LLMs进行自我批评,以及随后的细化。我们使用这种方法为小学2至5年级生成了涵盖80多个主题的数学课程计划。邀请了三位经验丰富的教育工作者制定全面的课程计划评估标准,然后使用这些标准将我们的LLM生成的课程计划与同一主题的实际课程计划进行基准比较。
2024-07-22 21:37:18 653
原创 论文翻译:Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models
大型语言模型(LLMs)在各种自然语言处理任务中获得了广泛的应用,包括问答和对话系统。然而,LLMs的一个主要缺点是幻觉问题,即它们生成的内容不忠实或不一致,偏离了输入源,导致严重后果。在本文中,我们提出了一个稳健的鉴别器RelD,有效地检测LLMs生成答案中的幻觉。RelD是在一个构建的双语问答对话数据集RelQA上训练的,该数据集包括由LLMs生成的答案和一套全面的指标。我们的实验结果表明,提出的RelD成功地检测了由不同LLMs生成的答案中的幻觉。
2024-07-22 11:43:17 284
原创 Week 7-杨帆-学习总结
门控循环单元(GRU)是一种改进的循环神经网络模型,它通过引入门控机制来解决传统RNN在处理长序列时的梯度消失或爆炸问题。GRU的核心思想是利用重置门和更新门来控制信息的流动,从而更好地捕捉序列中的短期和长期依赖关系。长短期记忆网络(LSTM)是一种特殊类型的循环神经网络(RNN),它能够学习到长期依赖关系。LSTM通过引入三种门控机制——输入门、遗忘门和输出门——来控制信息的流动,有效解决了传统RNN中的梯度消失问题。
2024-07-20 16:01:07 1062
原创 论文翻译:Can LLM Replace Stack Overflow? A Study on Robustness and Reliability of Large Language
Can LLM Replace Stack Overflow? A Study on Robustness and Reliability of Large Language Model Code Generation
2024-07-18 21:58:48 568
原创 来自Transformers的双向编码器表示(BERT) 通俗解释
BERT模型结合了ELMo和GPT的优点,既能够进行上下文敏感的双向编码,又不需要为每个任务设计特定的模型架构。在应用于具体任务时,BERT模型只需要做少量的架构调整,并且可以微调所有的参数,以适应不同的任务需求。通过多种掩蔽策略,模型在训练中引入了一定的噪声,增强了模型的泛化能力,使其在处理实际任务时更加稳健。这些模型会根据词的上下文来调整词的表示,使得相同的词在不同句子中的表示可以有所不同。这些庞大的语料库为BERT模型提供了丰富的训练数据,使得模型在处理各种自然语言处理任务时具备强大的理解能力。
2024-07-18 21:37:31 987
原创 论文翻译:TrustLLM: Trustworthiness in Large Language Models
大型语言模型(LLMs),如ChatGPT所示,因其卓越的自然语言处理能力而受到广泛关注。尽管如此,这些LLMs在可信度方面存在许多挑战。因此,确保LLMs的可信度成为一个重要议题。本文介绍了TrustLLM,这是对LLMs可信度的全面研究,包括不同维度可信度的原则、建立的基准、主流LLMs的可信度评估与分析,以及开放性挑战和未来方向的讨论。具体来说,我们首先提出了一套涵盖八个维度的可信LLMs的原则。基于这些原则,我们进一步建立了包括真实性、安全性、公平性、鲁棒性、隐私性和机器伦理在内的六个维度的基准。
2024-07-16 17:41:17 672
原创 论文阅读:Explainability for Large Language Models: A Survey
此外,论文提出了未来研究的方向,包括开发针对不同LLMs定制的解释方法、评估解释的忠实度,以及提高人类的可解释性。解释LLMs对于理解其行为、限制和社会影响至关重要。:提出了几个关键的研究挑战,包括缺乏真值解释、新兴能力的来源、两种范式的比较、捷径学习、注意力冗余,以及从快照可解释性转向时间分析。:总结了论文的主要内容,并强调了随着LLMs的发展,可解释性对于确保模型的透明度、公平性和有益性的重要性。:探讨了基于提示的LLMs的解释,包括思维链解释和反事实解释,以及如何利用这些解释来改进模型性能。
2024-07-15 10:35:48 479
原创 论文翻译:Explainability for Large Language Models: A Survey
大型语言模型(LLMs)在自然语言处理方面展示了令人印象深刻的能力。然而,它们的内部机制仍然不清晰,这种缺乏透明度为下游应用带来了不必要的风险。因此,理解和解释这些模型对于阐明它们的行为、限制和社会影响至关重要。在本文中,我们介绍了一种可解释性技术的分类,并为解释基于Transformer的语言模型提供了一个结构化的概述。我们根据LLMs的训练范式对技术进行分类:传统的基于微调的范式和基于提示的范式。对于每种范式,我们总结了生成单个预测的局部解释和整体模型知识全局解释的目标和主要方法。
2024-07-14 22:02:43 700
原创 论文翻译:Rethinking Interpretability in the Era of Large Language Models
在过去十年中,随着越来越大的数据集和深度神经网络的兴起,可解释机器学习领域的兴趣迅速增长。同时,大型语言模型(LLMs)在广泛的任务中展示了卓越的能力,为可解释机器学习提供了重新思考的机会。值得注意的是,以自然语言解释的能力使LLMs能够扩大可以提供给人类的模式的规模和复杂性。然而,这些新能力也带来了新的挑战,如幻觉解释和巨大的计算成本。在这篇立场论文中,我们首先回顾了评估LLM解释(解释LLMs和使用LLMs进行解释)这一新兴领域现有方法。
2024-07-14 21:42:33 1021
原创 论文阅读:Automated Assessment of Fidelity and Interpretability: An Evaluation Framework for Large Langua
论文提出的框架能够评估限制用户访问的专有LLMs,且自动化的可解释性评估不需要人类注释者的参与。研究发现,当模型被提示生成忠实解释时,保真度会下降,这可能是由于对忠实度的误解。这篇论文介绍了一个用于评估大型语言模型(LLMs)生成的自由文本理由的质量的框架,特别关注两个维度:保真度和可解释性。整体而言,这篇论文提出了一个自动化的评估框架,旨在提高LLMs生成解释的质量和可靠性,并通过实验展示了该框架在评估GPT-3.5时的有效性。:随着LLMs在多个领域的广泛应用,评估其解释的质量变得至关重要。
2024-07-14 16:38:44 305
archery.mp4 行为识别 pytorchvideo demo演示视频(行为识别)
2022-07-30
课堂学习行为测量系统的设计与实现_张鸿宇.caj
2021-04-15
基于深度学习的行为检测方法综述_高陈强.caj
2020-12-25
机器人抓取检测技术的研究现状_刘亚欣.caj
2020-12-11
Real-Time Grasp Detection Using Convolutional Neural Networks
2020-12-10
苹果采摘机器人末端执行器无损主动抓取技术研究
2020-11-24
基于卷积神经网络的二指机械手抓取姿态生成研究_李耿磊
2020-11-22
室内环境下移动机械臂的目标抓取技术.caj
2020-11-20
智能工业机器人的环境感知与运动规划.caj
2020-11-19
_移动机器人SLAM与路径规划方法研究.caj
2020-11-16
基于ROS视觉定位的机器人智能抓取系统研究_王海玲
2020-11-06
SLAM第四讲作业及资料.zip
2020-06-16
第四讲:相机模型与非线性优化.pptx
2020-06-16
SLAM第三讲作业资料.zip
2020-06-10
第二讲:三维空间的刚体运动.pptx
2020-06-09
SLAM第二讲作业资料.zip
2020-06-09
作业资料 第一讲:SLAM概述与预备知识
2020-06-06
第一讲:SLAM概述与预备知识.pptx
2020-06-06
deconvmodelsolver_2014.pdf
2020-05-27
生成式 AI 商业落地白皮书 给 CXO 的 AI 转型战术指南
2024-07-28
读论文Rethinking the Role of Demonstrations What Makes In-Context
2024-03-09
读论文Rethinking the Role of Demonstrations What Makes In-Context
2024-03-09
rfb-face-mask.pth
2023-08-09
latest-model-099-94.7200.pth
2023-08-09
适用于Yolo训练和测试的coco数据集标签文件 train2017.txt和val2017.txt
2023-05-06
22-8-6 mmaction2 slowfast训练配置 训练日志分析
2022-08-06
22-8-4 mmaction2 slowfast训练日志
2022-08-05
archery.mp4 行为识别 pytorchvideo demo演示视频(行为识别)
2022-07-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人