自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(269)
  • 资源 (27)
  • 收藏
  • 关注

原创 自定义ava数据集及训练与测试 完整版 时空动作/行为 视频数据集制作 yolov5, deep sort, VIA MMAction, SlowFast

前言这一篇博客应该是我花时间最多的一次了,从2022年1月底至2022年4月底。我已经将这篇博客的内容写为论文,上传至arxiv:https://arxiv.org/pdf/2204.10160.pdf欢迎大家指出我论文中的问题,特别是语法与用词问题在github上,我也上传了完整的项目:https://github.com/Whiffe/Custom-ava-dataset_Custom-Spatio-Temporally-Action-Video-Dataset关于自定义ava数据集,也是后台

2022-04-24 18:34:15 29985 149

原创 论文翻译:A survey on large language model (LLM) security and privacy: The Good, The Bad, and The Ugly

大型语言模型(LLMs),如ChatGPT和Bard,已经彻底改变了自然语言理解和生成。它们具有深度语言理解能力、类似人类的文本生成能力、上下文意识和强大的问题解决技能,使它们在各个领域(例如搜索引擎、客户支持、翻译)中变得不可或缺。同时,LLMs也在安全领域获得了关注,揭示了安全漏洞并展示了它们在安全相关任务中的潜力。本文探讨了LLMs与安全性和隐私的交集。具体来说,我们研究了LLMs如何积极影响安全性和隐私,与它们使用相关的潜在风险和威胁,以及LLMs内部的固有漏洞。

2024-08-05 12:38:19 655

原创 论文翻译:ChatGPT: Bullshit spewer or the end of traditional assessments in higher education?

ChatGPT 迄今为止是世界上最先进的聊天机器人。与其他聊天机器人不同,它可以在几秒钟内创造令人印象深刻的散文,并在高等教育中的学生评估以及其他许多问题上引起了大量炒作和末日预言。ChatGPT 是一种最先进的语言模型(OpenAI的生成预训练变换器(GPT)语言模型的一个变体),旨在生成可以与人类写作的文本无法区分的文本。它可以以一种看似自然直观的方式与用户进行对话。在本文中,我们简要讲述了ChatGPT背后的组织OpenAI的故事。我们强调了从一个非营利组织到商业商业模式的根本变化。

2024-08-04 11:38:45 1032

原创 论文翻译:Large Language Models in Education: Vision and Opportunities

随着人工智能技术的快速发展,大型语言模型(LLMs)已成为研究热点。教育在人类社会发展和进步中扮演着重要角色。传统教育面临诸如学生个体差异、教学资源分配不足、教学效果评估等挑战。因此,LLMs在数字/智能教育领域的应用前景广阔。教育大型模型(EduLLMs)的研究不断发展,提供了实现个性化学习、智能辅导和教育评估目标的新方法和途径,从而提高教育质量和学习体验。本文旨在调查和总结LLMs在智能教育中的应用。首先介绍了LLMs的研究背景和动机,并解释了LLMs的本质。

2024-08-02 22:13:37 731

原创 论文阅读:HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face

解决涉及不同领域和模态的复杂AI任务是实现通用人工智能的关键步骤。尽管目前有众多针对不同领域和模态的AI模型,但它们无法自主处理复杂的AI任务。鉴于大型语言模型(LLMs)在语言理解、生成、交互和推理方面表现出色,我们主张LLMs可以作为控制器来管理现有的AI模型解决复杂任务,语言则作为一种通用接口来实现这一目标。基于这一理念,我们提出了HuggingGPT,这是一个由LLM驱动的代理,利用LLMs(例如ChatGPT)连接机器学习社区(例如Hugging Face)中的各种AI模型来解决AI任务。

2024-08-02 21:26:04 1145

原创 论文阅读:Mammoth: Building math generalist models through hybrid instruction tuning

我们介绍了MAmmoTH,一系列特别为通用数学问题解决而设计的开源大型语言模型(LLMs)。MAmmoTH模型是在我们精心策划的指令调优数据集MathInstruct上训练的。MathInstruct是由13个数学数据集组成的,其中包含中间推理过程,我们新策划了其中的六个。它展示了思维链(CoT)和程序思维(PoT)推理的独特混合,并且确保了在数学领域广泛的多样性覆盖。CoT和PoT的混合不仅释放了工具使用的潜力,还允许对不同的数学问题采取不同的思维过程。

2024-08-02 16:48:54 987

原创 论文阅读:ChatGPT for good? On opportunities and challenges of large language models for education Author

高引用论文:ChatGPT for good?这篇论文探讨了大型语言模型(LLMs)在教育领域的应用、机遇、挑战以及未来的研究方向。综上所述,论文全面分析了大型语言模型在教育中的应用前景,并提出了实现其潜力所需注意的问题和未来的研究方向。

2024-08-02 11:38:13 352

原创 论文翻译:ChatGPT for good? On opportunities and challenges of large language models for education Author

大型语言模型代表了人工智能领域的一项重要进步。其底层技术是进一步创新的关键,尽管在社区和地区内存在批评观点甚至禁令,但大型语言模型将持续存在。这篇评论文章介绍了大型语言模型在教育应用中的潜在好处和挑战,从学生和教师的角度出发。我们简要讨论了大型语言模型及其应用的现状。然后,我们强调了这些模型如何用于创建教育内容,提高学生的参与度和互动性,以及个性化学习体验。关于挑战,我们认为教育中的大型语言模型需要教师和学习者发展一套必要的能力与素养,以理解技术及其限制和这些系统的意外脆弱性。

2024-08-02 11:36:04 779

原创 论文阅读:Adapting Large Language Models for Education: Foundational Capabilities, Potentials, and Challe

论文提出了未来研究的方向,包括改进LLMs的集成方法、提高跨学科能力、增强学生个性化体验、确保内容的公正性和准确性,以及开发新的技术和方法来应对上述挑战。:论文强调了LLMs在教育中的变革潜力,它们能够提供个性化的学习体验,辅助教师进行课程设计和学生评估,并有可能改变传统的教育模式。:论文总结了LLMs在教育领域的应用前景,并指出为了实现这一潜力,需要对当前的技术和方法进行进一步的研究和开发。整体来看,论文提供了对LLMs在教育领域应用的全面分析,并指出了实现其潜力所需克服的关键问题和未来研究的方向。

2024-08-01 11:57:21 339

原创 论文翻译:Adapting Large Language Models for Education: Foundational Capabilities, Potentials, and Challe

在线教育平台利用互联网分发教育资源,旨在提供便捷的教育,但通常在与学生的实时交流中表现不足。它们往往难以解决学生在学习过程中遇到的多样化障碍。解决学生遇到的问题对于传统的深度学习模型来说是一个重大挑战,因为这不仅需要广泛的学科知识,还需要理解构成学生个体困难的因素。这对传统机器学习模型来说具有挑战性,因为它们缺乏理解学生个性化需求的能力。最近,大型语言模型(LLMs)的出现提供了解决这一问题的可能性,通过理解个体请求。

2024-08-01 11:52:42 281

原创 论文阅读:The step-by-step code generation and self-debugging mechanisms highlight the critical role of c

这篇论文探讨了如何通过使用GPT-4代码解释器(GPT4-Code)来解决具有挑战性的数学文字问题,特别是引入了一种新颖的提示方法——显式基于代码的自我验证(Explicit Code-based Self-verification, CSV),以增强模型的数学推理能力。:最后,模型使用加权多数投票机制,根据验证结果的不同状态(真、不确定、假)为每个可能的答案分配不同的权重,以提高整体答案的准确性。:模型随后编写额外的代码,目的是通过执行这段代码来验证上一步生成的答案的正确性。

2024-08-01 10:20:57 231

原创 论文翻译:The step-by-step code generation and self-debugging mechanisms highlight the critical role of c

最近,在大型语言模型(LLMs)如GPT-4和PaLM-2方面取得的进展,在解决数学推理问题上带来了显著的进步。特别是,OpenAI的最新版GPT-4,被称为GPT-4代码解释器,在具有挑战性的数学数据集上表现出色。在本文中,我们通过在GPT-4代码解释器上引入不同的代码使用频率约束,探索了代码对增强LLMs推理能力的影响。我们发现其成功在很大程度上归功于其生成和执行代码的强大技能,评估代码执行的输出,并在接收到不合理的输出时纠正其解决方案。

2024-08-01 10:14:25 797

原创 论文阅读:Evaluating Reading Comprehension Exercises Generated by LLMs: A Showcase of ChatGPT in Educatio

这篇论文探讨了如何利用预训练的大型语言模型(LLMs),特别是OpenAI的ChatGPT,来生成适合中国中学生的高质量、个性化的阅读理解练习。研究团队开发了一个系统,通过精心设计的提示,指导ChatGPT生成连贯且多样化的阅读材料和相应的多项选择题。论文强调了AI技术在教育领域的应用前景,并展示了ChatGPT作为教育工具的有效性,同时也指出了需要进一步研究和改进的地方。:介绍了阅读理解对英语学习者的重要性,并指出了当前教育实践中使用过时阅读材料的问题。

2024-07-31 18:13:12 486

原创 论文翻译:Evaluating Reading Comprehension Exercises Generated by LLMs: A Showcase of ChatGPT in Educatio

最近预训练的大型语言模型(LLMs),例如OpenAI的ChatGPT,已经在各个领域引起了变革。例如,在教育领域开发利用LLMs语言能力的智能系统显示出明显的潜力。尽管研究人员最近探索了ChatGPT可能如何协助学生学习,但很少有研究将这些技术应用于涉及教师和学生的现实课堂环境。在这项研究中,我们实施了一个阅读理解练习生成系统,为中国的中学英语学习者提供高质量和个性化的阅读材料。对生成的阅读段落和相应的练习问题进行了广泛的自动和手动评估,证明系统生成的材料适合学生,甚至超过了现有的人工编写材料的质量。

2024-07-31 18:11:28 1142

原创 大模型-鲁棒性总结-2024-7-28

大语言模型(LLMs)的鲁棒性(Robustness of Large Models)指的是大规模机器学习模型在面对输入数据的变化、噪声或攻击时,仍然能够保持其性能和稳定性的能力。这在实际应用中非常重要,因为真实世界的数据往往是嘈杂的、不可预测的,并且有时可能包含恶意攻击。以下是一些关键点来解释LLMs的鲁棒性:对噪声的鲁棒性:LLMs需要能够处理数据中的噪声,如输入数据中的随机误差或异常值。例如,在图像分类任务中,图像可能会包含噪声或失真,LLMs应当能够正确分类这些图像。

2024-07-28 15:34:27 969

原创 论文阅读:Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models

大型语言模型(LLMs)在自然语言处理任务中取得了显著成就,但它们生成的文本中存在“幻觉”问题,即生成与输入源不一致或不忠实的内容,这可能导致严重后果。特别是在需要事实准确性的领域,如医学和金融,幻觉的存在严重阻碍了LLMs的应用。论文得出结论,RelD是一个有效的工具,能够检测LLMs生成的可靠答案,并为减轻幻觉提供了有希望的方向。未来的工作可能会集中在进一步提高RelD的性能,以及探索更深层次的语义关系和上下文理解,以提高幻觉检测的准确性和鲁棒性。

2024-07-28 14:24:58 393

原创 论文阅读:Examining the robustness of LLM evaluation to the distributional assumptions of benchmarks

大型语言模型(LLMs)在自然语言处理领域取得了显著进展,但它们的评估方法存在挑战。传统的评估方法通常假设基准测试中的提示是独立同分布(i.i.d.)的样本,这种假设可能不准确,因为实际应用中提示的分布可能因用例而异。因此,研究者们提出了研究LLMs评估的鲁棒性,特别是针对基准测试中提示的分布假设。论文主要研究了以下问题:基准测试中的提示权重是否对模型的评估结果有显著影响;这篇论文主要探讨了大型语言模型(LLMs)在基准测试中的评估问题,特别是关注了基准测试中提示的分布假设对模型评估的影响。

2024-07-28 14:05:36 384

原创 论文阅读:Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis, and LLMs Evaluations

这篇论文主要探讨了自然语言处理(NLP)中大型预训练语言模型(PLMs)在面对分布外(OOD)数据时的鲁棒性问题。

2024-07-27 15:58:21 269

原创 Week 8-杨帆-学习总结

BERT(Bidirectional Encoder Representations from Transformers)是一种基于Transformers的双向编码器表示,它通过预训练任务学习到的深层双向表示,极大地提升了自然语言处理任务的性能。BERT(Bidirectional Encoder Representations from Transformers)是一种预训练语言表示模型,通过在大量文本上预训练得到的语言模型,可以在多种下游任务中获得良好的性能。

2024-07-27 13:34:38 480

原创 论文阅读:Can LLM Replace Stack Overflow? A Study on Robustness and Reliability of Large Language Model C

作者创建了 RobustAPI,一个包含 1208 个 Stack Overflow 上的问题和相关 Java API 的数据集,用以评估 LLMs 生成的代码的可靠性和鲁棒性。整体来看,这篇论文强调了在软件开发中使用 LLMs 时需要考虑的代码质量与安全性问题,并提供了一个评估和改进这些模型的框架。:提出了改进生成代码质量的方法,包括上下文学习、微调和预训练,并强调了评估和改进 LLMs 在现实世界软件开发中的重要性。

2024-07-27 11:00:55 292

原创 论文阅读:GSM-PLUS: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Probl

这篇论文介绍了一个名为GSM-PLUS的基准测试,它旨在全面评估大型语言模型(LLMs)解决数学问题时的鲁棒性。

2024-07-26 19:10:43 405

原创 论文阅读:Eight Methods to Evaluate Robust Unlearning in LLMs

然后,他们以Eldan和Russinovich在2023年提出的“Who’s Harry Potter”(WHP)模型为研究对象,进行了一系列的测试,以评估该模型的遗忘效果是否鲁棒和有竞争力。此外,这些模型可能在某些情况下展现出不期望的行为。:研究者们想要评估LLMs的遗忘技术,确保这些模型在遗忘特定知识后,依然能够在其他任务上保持竞争力,并且遗忘的知识不容易被重新提取。总的来说,这篇论文深入探讨了LLMs的遗忘技术,并对其有效性和局限性进行了全面的评估,为未来在这一领域的研究提供了宝贵的见解和建议。

2024-07-26 17:41:17 365

原创 大模型-RAG相关资料收集

最近开源的AI知识库GraphRAG到底是什么?和普通的RAG有什么区别?动手学RAG:Part1 什么是RAG?

2024-07-25 20:55:20 615

原创 大模型-鲁棒性总结-2024-7-21

大语言模型(LLMs)的鲁棒性(Robustness of Large Models)指的是大规模机器学习模型在面对输入数据的变化、噪声或攻击时,仍然能够保持其性能和稳定性的能力。这在实际应用中非常重要,因为真实世界的数据往往是嘈杂的、不可预测的,并且有时可能包含恶意攻击。以下是一些关键点来解释LLMs的鲁棒性:对噪声的鲁棒性:LLMs需要能够处理数据中的噪声,如输入数据中的随机误差或异常值。例如,在图像分类任务中,图像可能会包含噪声或失真,LLMs应当能够正确分类这些图像。

2024-07-25 19:47:17 741

原创 教育+大模型-可解释-2024-7-15

随着人工智能技术的飞速发展,大型语言模型(LLMs)在教育领域的应用日益广泛,展现出改善教学方法和提供个性化学习体验的巨大潜力。这些模型以其在自然语言处理方面的卓越能力,为教育带来了革命性的变革。然而,LLMs的复杂性和不透明性,特别是它们的内部机制仍然不清晰,引发了对其可解释性的广泛关注。这种缺乏透明度不仅为下游应用带来了风险,而且限制了它们的广泛应用,需要通过可解释性来确保应用安全、克服性能限制,并控制社会影响。

2024-07-25 19:45:14 473

原创 论文阅读:A Survey on Evaluation of Large Language Models-鲁棒性相关内容

Wang等人(2023c)是一项早期工作,使用AdvGLUE (Wang等人,2021)、ANLI (Nie等人,2019)和DDXPlus (Fansi Tchango等人,2022)数据集等现有基准,从对抗性和OOD角度评估了ChatGPT和其他LLMs。卓等人(2023b)评估了语义解析的鲁棒性。评估系统面对意外输入的稳定性是鲁棒性研究的核心,主要从对抗鲁棒性和出分布泛化两方面考察大语言模型,发现当前模型对对抗性提示和视觉输入显著脆弱,提示模型在部署中面临安全隐患,需要继续提高模型的鲁棒性。

2024-07-25 15:35:05 533

原创 论文翻译:GSM-PLUS: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Probl

大型语言模型(LLMs)在各种数学推理基准测试中取得了令人印象深刻的表现。然而,关于这些模型是否真的理解并应用数学知识,还是仅仅依赖于数学推理的捷径,争论越来越多。一个关键且频繁出现的证据是,当数学问题稍有变化时,LLMs可能会出现不正确的行为。这激励我们通过测试广泛的数学问题范围,包括GSM8K(Cobbe等人,2021年)、高中数学MATH(Hendrycks等人,2021年)和大学数学定理问答Theoremqa(Chen等人,2023年),来评估LLMs数学推理能力的鲁棒性。

2024-07-25 10:17:07 809

原创 论文翻译:Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis, and LLMs Evaluations

本文重新审视了自然语言处理领域中关于分布外(OOD)鲁棒性的研究。我们发现,先前研究中的分布偏移设置通常缺乏足够的挑战,阻碍了对OOD鲁棒性准确评估。为了解决这些问题,我们提出了一种基准构建协议,确保清晰的区分和具有挑战性的分布偏移。然后我们介绍了BOSS,一个用于分布外鲁棒性评估的基准测试套件,涵盖5个任务和20个数据集。基于BOSS,我们对预训练语言模型进行了一系列的实验,分析和评估OOD鲁棒性。首先,对于普通的微调,我们检查了分布内(ID)和OOD性能之间的关系。

2024-07-24 20:06:22 933

原创 翻译论文:Examining the robustness of LLM evaluation to the distributional assumptions of benchmarks

基准测试已成为评估大型语言模型(LLMs)的核心方法。研究界通常依赖模型在基准测试提示上的平均表现来评估模型的性能。这与假设基准测试中的测试提示是来自感兴趣的现实世界分布的随机样本一致。我们注意到这通常并非事实;相反,我们认为感兴趣的分布根据特定用例而变化。我们发现(1)模型在测试提示上的表现之间的相关性是非随机的,(2)考虑测试提示之间的相关性可以改变主要基准测试上的模型排名,(3)这些相关性的解释因素包括语义相似性和常见的LLM失败点。

2024-07-24 10:37:20 739

原创 翻译论文:Eight Methods to Evaluate Robust Unlearning in LLMs

机器遗忘对于从大型语言模型(LLMs)中移除有害能力和记忆文本可能是有用的,但目前还没有标准化的方法来严格评估它。在本文中,我们首先调查了现有遗忘评估的技术和局限性。其次,我们对Eldan和Russinovich(2023年)的“谁是哈利·波特”(WHP)模型中的遗忘的鲁棒性和竞争力进行了全面的测试。

2024-07-23 17:24:00 547

原创 论文翻译:Automatic Lesson Plan Generation via Large Language Models with Self-critique Prompting

在本文中,我们利用大型语言模型(LLMs)的理解和生成能力来自动生成定制化的课程计划。这解决了传统计划可能无法充分满足不同教学环境和学生群体的特定需求的常见挑战。我们提出了一个新颖的三阶段过程,包括使用检索增强生成(RAG)逐步生成课程计划的每个关键组成部分,通过LLMs进行自我批评,以及随后的细化。我们使用这种方法为小学2至5年级生成了涵盖80多个主题的数学课程计划。邀请了三位经验丰富的教育工作者制定全面的课程计划评估标准,然后使用这些标准将我们的LLM生成的课程计划与同一主题的实际课程计划进行基准比较。

2024-07-22 21:37:18 653

原创 论文翻译:Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models

大型语言模型(LLMs)在各种自然语言处理任务中获得了广泛的应用,包括问答和对话系统。然而,LLMs的一个主要缺点是幻觉问题,即它们生成的内容不忠实或不一致,偏离了输入源,导致严重后果。在本文中,我们提出了一个稳健的鉴别器RelD,有效地检测LLMs生成答案中的幻觉。RelD是在一个构建的双语问答对话数据集RelQA上训练的,该数据集包括由LLMs生成的答案和一套全面的指标。我们的实验结果表明,提出的RelD成功地检测了由不同LLMs生成的答案中的幻觉。

2024-07-22 11:43:17 284

原创 Week 7-杨帆-学习总结

门控循环单元(GRU)是一种改进的循环神经网络模型,它通过引入门控机制来解决传统RNN在处理长序列时的梯度消失或爆炸问题。GRU的核心思想是利用重置门和更新门来控制信息的流动,从而更好地捕捉序列中的短期和长期依赖关系。长短期记忆网络(LSTM)是一种特殊类型的循环神经网络(RNN),它能够学习到长期依赖关系。LSTM通过引入三种门控机制——输入门、遗忘门和输出门——来控制信息的流动,有效解决了传统RNN中的梯度消失问题。

2024-07-20 16:01:07 1062

原创 论文翻译:Can LLM Replace Stack Overflow? A Study on Robustness and Reliability of Large Language

Can LLM Replace Stack Overflow? A Study on Robustness and Reliability of Large Language Model Code Generation

2024-07-18 21:58:48 568

原创 来自Transformers的双向编码器表示(BERT) 通俗解释

BERT模型结合了ELMo和GPT的优点,既能够进行上下文敏感的双向编码,又不需要为每个任务设计特定的模型架构。在应用于具体任务时,BERT模型只需要做少量的架构调整,并且可以微调所有的参数,以适应不同的任务需求。通过多种掩蔽策略,模型在训练中引入了一定的噪声,增强了模型的泛化能力,使其在处理实际任务时更加稳健。这些模型会根据词的上下文来调整词的表示,使得相同的词在不同句子中的表示可以有所不同。这些庞大的语料库为BERT模型提供了丰富的训练数据,使得模型在处理各种自然语言处理任务时具备强大的理解能力。

2024-07-18 21:37:31 987

原创 论文翻译:TrustLLM: Trustworthiness in Large Language Models

大型语言模型(LLMs),如ChatGPT所示,因其卓越的自然语言处理能力而受到广泛关注。尽管如此,这些LLMs在可信度方面存在许多挑战。因此,确保LLMs的可信度成为一个重要议题。本文介绍了TrustLLM,这是对LLMs可信度的全面研究,包括不同维度可信度的原则、建立的基准、主流LLMs的可信度评估与分析,以及开放性挑战和未来方向的讨论。具体来说,我们首先提出了一套涵盖八个维度的可信LLMs的原则。基于这些原则,我们进一步建立了包括真实性、安全性、公平性、鲁棒性、隐私性和机器伦理在内的六个维度的基准。

2024-07-16 17:41:17 672

原创 论文阅读:Explainability for Large Language Models: A Survey

此外,论文提出了未来研究的方向,包括开发针对不同LLMs定制的解释方法、评估解释的忠实度,以及提高人类的可解释性。解释LLMs对于理解其行为、限制和社会影响至关重要。:提出了几个关键的研究挑战,包括缺乏真值解释、新兴能力的来源、两种范式的比较、捷径学习、注意力冗余,以及从快照可解释性转向时间分析。:总结了论文的主要内容,并强调了随着LLMs的发展,可解释性对于确保模型的透明度、公平性和有益性的重要性。:探讨了基于提示的LLMs的解释,包括思维链解释和反事实解释,以及如何利用这些解释来改进模型性能。

2024-07-15 10:35:48 479

原创 论文翻译:Explainability for Large Language Models: A Survey

大型语言模型(LLMs)在自然语言处理方面展示了令人印象深刻的能力。然而,它们的内部机制仍然不清晰,这种缺乏透明度为下游应用带来了不必要的风险。因此,理解和解释这些模型对于阐明它们的行为、限制和社会影响至关重要。在本文中,我们介绍了一种可解释性技术的分类,并为解释基于Transformer的语言模型提供了一个结构化的概述。我们根据LLMs的训练范式对技术进行分类:传统的基于微调的范式和基于提示的范式。对于每种范式,我们总结了生成单个预测的局部解释和整体模型知识全局解释的目标和主要方法。

2024-07-14 22:02:43 700

原创 论文翻译:Rethinking Interpretability in the Era of Large Language Models

在过去十年中,随着越来越大的数据集和深度神经网络的兴起,可解释机器学习领域的兴趣迅速增长。同时,大型语言模型(LLMs)在广泛的任务中展示了卓越的能力,为可解释机器学习提供了重新思考的机会。值得注意的是,以自然语言解释的能力使LLMs能够扩大可以提供给人类的模式的规模和复杂性。然而,这些新能力也带来了新的挑战,如幻觉解释和巨大的计算成本。在这篇立场论文中,我们首先回顾了评估LLM解释(解释LLMs和使用LLMs进行解释)这一新兴领域现有方法。

2024-07-14 21:42:33 1021

原创 论文阅读:Automated Assessment of Fidelity and Interpretability: An Evaluation Framework for Large Langua

论文提出的框架能够评估限制用户访问的专有LLMs,且自动化的可解释性评估不需要人类注释者的参与。研究发现,当模型被提示生成忠实解释时,保真度会下降,这可能是由于对忠实度的误解。这篇论文介绍了一个用于评估大型语言模型(LLMs)生成的自由文本理由的质量的框架,特别关注两个维度:保真度和可解释性。整体而言,这篇论文提出了一个自动化的评估框架,旨在提高LLMs生成解释的质量和可靠性,并通过实验展示了该框架在评估GPT-3.5时的有效性。:随着LLMs在多个领域的广泛应用,评估其解释的质量变得至关重要。

2024-07-14 16:38:44 305

archery.mp4 行为识别 pytorchvideo demo演示视频(行为识别)

https://pytorchvideo.org/docs/tutorial_torchhub_inference#load-an-example-video archery.mp4 pytorchvideo demo演示视频

2022-07-30

pretrained model on ucf24

ucf_dla34_K7_rgb_coco.pth pretrained model on ucf24

2022-07-20

课堂学习行为测量系统的设计与实现_张鸿宇.caj

课堂是学校教育的核心,课堂教学过程评价对于教学质量的提高有重要意义,而学生的课堂行为表现是课堂教学评价的重要成分。通过评价学生的课堂行为,形成有效的反馈信息和教学导向,可以有效的促进课堂教学和学生的发展。因此,利用现在的计算机视觉技术和教学过程的相关测量手段相结合,对教室中的学生学习行为进行测量,形成对学生、对课堂的多维度的客观评价和反馈,对于提高课堂内的教学效率和教学质量有着重要的意义。本文在课堂学习场景下,研究了基于体感信息的学习者动作识别的算法以及相关应用系统的设计和实现。 论文的主要贡献是设计并实现了课堂学习场景下基于体感信息的多学习者行为测量系统:针对的Kinect骨骼数据特点,本文提出了基于人体上肢骨骼结构的姿态识别方法,该方法通过选用结构向量间的向量角和向量模比值作为最终的姿态向量特征,采用SVM分类器对姿态向量特征进行分类和识别;实现了一个集数据采集、识别、记录、分析和展示于一体的课堂行为识别系统,对课堂交互活动行为分析和课堂整体活跃态势进行了分析,并使用该系统进行了针对学习者个人评价和针对课堂活跃度评价的实验。 通过测试结果表明,本文提出的姿态识别方法能有效地识别多个学习者的举手、正坐和低头等姿态,该课堂行为识别系统具有一定的实用性;通过模拟课堂实验得出对于学生个人的参与度评价、每道题的难度评价、整个课堂活跃度的评价的实验性结论,对于课堂教学过程评价具有一定的参考意义。

2021-04-15

基于深度学习的行为检测方法综述_高陈强.caj

行为检测在自动驾驶、视频监控等领域的广阔应用前景使其成为了视频分析的研究热点。近年来,基于深度学习的方法在行为检测领域取得了巨大的进展,引起了国内外研究者的关注,对这些方法进行了全面的梳理和总结,介绍了行为检测任务的详细定义和面临的主要挑战; 从时序行为检测和时空行为检测 2 个方面对相关文献做了细致地分类,综合分析了每一类别中不同研究方法的思路和优缺点,并阐述了基于弱监督学习、图卷积神经网络、注意力机制等新兴研究话题的相关方法; 介绍了行为检测领域常用的数据集以及性能评估指标,在这些数据集上比较了几种典型方法的性能; 总结了当前行为检测方法需要解决的问题以及进一步发展的研究方向。

2020-12-25

机器人抓取检测技术的研究现状_刘亚欣.caj

基于学习的方法 机器学习方法已被证明对广泛的感知问题有效[32-36], 允许感知系统学习从一些特征集到各种视觉特性的映射[37]. 研究人员更是将深度学习引入抓取检测中,将学习方法应用于视觉中,引入学习方法对抓取质量进行评分[38]. 近期的文献采用了更丰富的特征和学习方法,允许机器人抓取部分被遮挡的已知物体[39] 或已知物体未知姿态[40] 以及系统之前未见过的全新物体(未知物体)[41],本文将讨论后一种情况. 早期的工作集中在仅从2D部分视图数据中检测单个抓取点,使用启发式方法基于此点确定机械手姿态[41]. 由于只有二维信息,第三维度的距离必须是固定的,抓取具有局限性,而3D数据的

2020-12-11

Real-Time Grasp Detection Using Convolutional Neural Networks

我们提出一种准确而且可以达到实时性能要求基于卷积神经网络的,机器人抓取检测方法。我们的抓取方法没有使用常见的滑动窗口或者区域选择技术,我们的网络只是使用single-stage回归去找到可抓取的包围检测框。模型的表现性能比当前最先进的方法也要高出十四个百分点(我想这里应该说的是准确率)。同时可以在单张GPU上能达到每秒十三帧图像的性能。我们的网络可以在对物体进行分类的同时,也可以做到找出可抓取部位的检测矩形框。在这个模型上我们也做了一些修改,使它可以对单个物体上预测多个抓取部位,实现的方法是基于一个局部受限预测机制,基于该机制的模型表现更好,尤其是物体有多个抓取方式的时候。

2020-12-10

苹果采摘机器人末端执行器无损主动抓取技术研究

在果蔬生产过程中,采摘环节是最耗时和耗力的环节,人工采摘的成本约占整个生产成本的 50%~70%。开展采摘机器人研究,不仅有利于解决人口老龄化和社会城镇化导致的劳动力日益短缺问题,还能促进我国农业科技进步,加速实现农业现代化。由于果蔬组织柔软、易损伤且生长程度不一,相互差异较大,导致采摘的损伤率较高。因此开展末端执行器抓取规划和控制策略的研究对实现采摘机器人的无损采摘具有重要意义,本文从采摘机器人末端执行器稳定抓取规划以及抓取力主动柔顺控制两个角度出发对采摘机器人无损抓取技术进行研究,主要研究内容如下: (2) 以力封闭作为理论基础,分析了两指稳定抓取条件,制定了两指稳定抓取策略。同时根据三

2020-11-24

基于卷积神经网络的二指机械手抓取姿态生成研究_李耿磊

本课题立足机械手自主抓取,研究利用卷积神经网络实现物体表面抓取点生成的解决方案。本课题以场景的深度图像作为输入信息,采取 “先采样,后预测”的两步走抓取生成方案。首先利用 Laplace 方法在深度图像中提取物体边缘像素点,并利用对跖法生成抓取空间;然后基于重要性采样方法从抓取空间中采样获得候选抓取集,最后利用训练好的抓取预测卷积神经网络模型预测候选集每个抓取的成功置信度,取其中极大者作为结果指导机器人完成抓取。 为将卷积神经网络应用于抓取预测,本课题建立了基于卷积神经网络的抓取预测模型。将抓取预测问题抽象为深度学习中的分类问题,网络输出为某抓取点属于成功抓取的置信度。本课题定义一组抓取为

2020-11-22

室内环境下移动机械臂的目标抓取技术.caj

随着科学技术的发展,机器人在人类的生产生活中扮演着越来越重要的角色。移动 机械臂是指以移动机器人为平台,在平台上安装机械臂的设备。移动机械臂不仅具有移机器人的环境感知和自主导航功能,还具有机械臂灵活的操作能力,被广泛的应用于工业生产、智能服务、太空工作及侦查排爆等领域。本文以移动机械臂的侦察排爆为背景,围绕移动机械臂的目标抓取任务,重点研究室内环境中移动机械臂的建图与导航、目标检测与抓取等关键技术。本文的主要工作包括以下几个方面: (1) 在Turtlebot2移动机器人平台上搭建PhantomX_ARM机械臂构成移动机械臂,并搭建 RPLIDAR A2 激光雷达传感器与 Xt

2020-11-20

智能工业机器人的环境感知与运动规划.caj

智能机器人是指能够自主完成特定任务的机器人,而对环境感知和运动规 划的研究则有助于提高机器人的自主性,使其更加智能化。环境感知主要是通 过各类视觉传感器采集点云或图像数据,并由计算机进行分析处理后,使机器 人系统能够获得环境中物体的各类信息。运动规划则是在环境感知的基础上, 通过规划出一条无碰轨迹来实现机器人的运动控制。 本文首先介绍各类传感器的标定方法,用以实现不同数据在坐标系下的统 一。在分析现有标定算法的基础上,利用 Navy 手眼标定法优化计算最小二乘 解,从而使标定精度达到毫米级;而基于两步法的单线激光传感器标定方法则 是在保证精度足够的前提下,有效地减少了计算量,从而提高了算法效

2020-11-19

_移动机器人SLAM与路径规划方法研究.caj

自动搬运是现代物流仓库实现自动化、智能化的基础。自主移动机器人 相对于传送带与传统AGV,面对未知环境有探索和决策能力,具有柔性强、 可重构环境的优点。本文对自主移动机器人同时定位与地图构建、路径规 划方法进行了深入研巧,主要内容如下: 首先,同时定位与地图构建方法研究。建立了本研究的系统模型W及 同时定位与建图的数学模型,分析其关键问题。然后,分别对郎F-SLAM和 FAST-SLAM算法进行原理分析和仿真分析。仿真实验表明;两种算法均可W 取得较好仿真效果,但FAST-SLAM算法的追踪误差较小、更适应实际环境。 其次,提出了蜘蛛群居算法的改进策略。为了提高

2020-11-16

基于ROS视觉定位的机器人智能抓取系统研究_王海玲

随着科技的飞速发展,机器人应用变得越加广泛。如今,在线示教和离线编程是工业生产线中控制机器人常见的控制方式,但是由于受到抓取目标物体的初始位姿和最终位姿被严格限定的问题,只能依靠机械完成机器人点到点的操纵,全程所用时间长、操作效率低以及定位准确度也低,因此,机器人在智能化程度上有一定程度的欠缺。在此问题的基础上,本课题提出一套基于ROS(机器人操作系统)视觉定位的机械臂智能抓取系统,使抓取目标的初始位姿和最终位姿被严格限定的问题得到解决。首先,采用张正友算法标定RGB-D相机,获取其内外参数;其次,采用棋盘格与AR标签两种方法,实现手眼标定;然后,通过多模态信息进行物体的识别与位姿估计;最终,

2020-11-06

SLAM第四讲作业及资料.zip

我们在现实生活中能看到大量的照片。在计算机中,一张照片由很多个像素组成,每 个像素记录了色彩或亮度的信息。三维世界中的一个物体反射或发出的光线,穿过相机光 心后,投影在相机的成像平面上。相机的感光器件接收到光线后,产生了测量值,就得到 了像素,形成了我们见到的照片。这个过程能否用数学原理来描述呢?本讲,我们首先讨 论相机模型,说明投影关系具体如何描述,相机的内参是什么。同时,简单介绍双目成像 与 RGB-D 相机的原理。然后,介绍二维照片像素的基本操作。最后,我们根据内外参数 的含义,演示一个点云拼接的实验

2020-06-16

第四讲:相机模型与非线性优化.pptx

我们在现实生活中能看到大量的照片。在计算机中,一张照片由很多个像素组成,每 个像素记录了色彩或亮度的信息。三维世界中的一个物体反射或发出的光线,穿过相机光 心后,投影在相机的成像平面上。相机的感光器件接收到光线后,产生了测量值,就得到 了像素,形成了我们见到的照片。这个过程能否用数学原理来描述呢?本讲,我们首先讨 论相机模型,说明投影关系具体如何描述,相机的内参是什么。同时,简单介绍双目成像 与 RGB-D 相机的原理。然后,介绍二维照片像素的基本操作。最后,我们根据内外参数 的含义,演示一个点云拼接的实验

2020-06-16

SLAM第三讲作业资料.zip

上一讲,我们介绍了三维世界中刚体运动的描述方式,包括旋转矩阵、旋转向量、欧 拉角、四元数等若干种方式。我们重点介绍了旋转的表示,但是在 SLAM 中,除了表示之 外,我们还要对它们进行估计和优化。因为在 SLAM 中位姿是未知的,而我们需要解决什 么样的相机位姿最符合当前观测数据这样的问题。一种典型的方式是把它构建成一个优化 问题,求解最优的 R; t,使得误差最小化。 如前所言,旋转矩阵自身是带有约束的(正交且行列式为 1)。它们作为优化变量时, 会引入额外的约束,使优化变得困难。通过李群——李代数间的转换关系,我们希望把位 姿估计变成无约束的优化问题,简化求解方式。由于读者可能还没有李群李代数的基本知 识,我们将从最基本的开始讲起。

2020-06-10

第二讲:三维空间的刚体运动.pptx

一个刚体在三维空间中的运动是如何描述的。我们当然知道这由一次旋转加一次 平移组成。平移确实没有太大问题,但旋转的处理是件麻烦事。我们将介绍旋转矩阵、四 元数、欧拉角的意义,以及它们是如何运算和转换的。在实践部分,我们将介绍线性代数 库 Eigen。它提供了 C++ 中的矩阵运算,并且它的 Geometry 模块还提供了四元数等刚 体运动的描述。 Eigen 的优化非常完善,但是它的使用方法有一些特殊的地方,我们会在 程序中介绍

2020-06-09

SLAM第二讲作业资料.zip

一个刚体在三维空间中的运动是如何描述的。我们当然知道这由一次旋转加一次 平移组成。平移确实没有太大问题,但旋转的处理是件麻烦事。我们将介绍旋转矩阵、四 元数、欧拉角的意义,以及它们是如何运算和转换的。在实践部分,我们将介绍线性代数 库 Eigen。它提供了 C++ 中的矩阵运算,并且它的 Geometry 模块还提供了四元数等刚 体运动的描述。 Eigen 的优化非常完善,但是它的使用方法有一些特殊的地方,我们会在 程序中介绍

2020-06-09

作业资料 第一讲:SLAM概述与预备知识

1 习题说明 • 第 i 节课习题所有材料打包在 Li.zip 中,∀i = 1 . . . 8。 • 习题分为若⼲种:计算类习题,需要读者编程计算⼀个实际问题,我们会附有参考答案以供⾃测。 操作类习题,会指导读者做⼀个具体的实验,给出中间步骤截图或结果。简述类习题则提供阅读材 料,需要读者阅读材料后,回答若⼲问题。 • 每个习题会有⼀定的分值。每次习题分值加和为 10 分。你需要获得 8 分以上才能得到“通过”的评 价。带 ∗ 的习题为附加题,会在总分之外再提供⼀定的分值,所以总和可能超过 10 分。换句话说, 你也可以选择⼀道附加题,跳过⼀道正常题。 • 每道习题的给分由助教评判,简述类习题可能存在⼀定开放性,所以评分也存在主观因素。 • 请利⽤深蓝学院系统提交习题。每次习题我们会记通过与否。提交形式为 word 或 pdf 格式报告, 如有编程习题请提交可编译的源码。 • 为⽅便读者,我通常会准备⼀些阅读材料,放在 books/或 papers/⽬录下。请读者按个⼈需求使⽤ 这些材料。它们多数是从⽹络下载的,如果侵犯到你的权利,请及时告诉我。 • 每个习题会标注⼤致⽤时,但视同学个⼈⽔平可能会有出⼊。 • 习题的完成情况会影响你对本课程内容的掌握程度,请认真、独⽴完成。习题总得分较高的同学将 获得推荐资格。

2020-06-06

第一讲:SLAM概述与预备知识.pptx

第一讲:SLAM概述与预备知识ppt 课程内容 SLAM:Simultaneous Localization and Mapping 同时定位与地图构建 SLAM的数学基础知识 SLAM相关的计算机视觉知识 工程实践 SLAM是什么 自主运动的两大基本问题 我在什么地方?——定位 周围环境是什么样子?——建图 定位与建图=内外兼修 定位侧重对自身的了解,建图侧重对外在的了解 相互关联 准确的定位需要精确的地图 精确的地图来自准确的定位

2020-06-06

deconvmodelsolver_2014.pdf

Recovering an unblurred image from a single motion-blurred picture has long been a fundamental research problem. If one assumes that the blur kernel – or point spread function (PSF) – is shift-invariant, the problem reduces to that of image deconvolution. Image deconvolution can be further categorized to the blind and non-blind cases. In non-blind deconvolution, the motion blur kernel is assumed to be known or computed elsewhere; the task is to estimate the unblurred latent image. The general problems to address in non-blind deconvolution include reducing possible unpleasing ringing artifacts that appear near strong edges, suppressing noise, and saving computation. Traditional methods such as Weiner deconvolution (Wiener 1949) and Richardson-Lucy (RL) method (Richardson 1972, Lucy 1974) were proposed decades ago and find many variants thanks to their simplicity and efficiency. Recent development involves new models with sparse regularization and proposal of effective linear and non-linear optimization to improve result quality and further reduce running time. Blind deconvolution is a much more challenging problem, since both the blur kernel and latent image are unknown. One can regard non-blind deconvolution as one inevitable step in blind deconvolution during the course of PSF estimation or after PSF has been computed. Both blind and non-blind deconvolution is practicably very useful, which is studied and employed in a variety of disciplines, including, but not limited to, image processing, computer vision, medical and astronomic imaging and digital communication. This chapter discusses shift-invariant single image motion deblurring methods, which assume that the image is uniformly blurred with only one PSF, which may not be known in prior. This set of problems have a long history in theoretical and empirical research and are notably advanced in recent 5-10 years with a few remarkably effective models and solvers.

2020-05-27

生成式 AI 商业落地白皮书 给 CXO 的 AI 转型战术指南

生成式 AI 商业落地白皮书 给 CXO 的 AI 转型战术指南 01 场景案例大全 Gen-AI 240 应用全场景地图 消费零售 金融 汽车 医药大健康 智能终端 教育和科研 制造 企业服务 案例 01 飞鹤“3+3+2”战略蓝图 AI 能力中台建设 案例 05 汽车销售顾问的强大助手“SalesCopilot” 案例 02 海底捞 x 豆包大模型智慧洞察用户需求 案例 03 海尔消金携手火山引擎,共建消费金融大模型 案例 04 捷途汽车 x 豆包大模型打造智能客服“AI 小捷” 案例 06 北京协和医院基于豆包大模型和 HiAgent 研发智能运 维助手和 HIS 指南针 案例 08 OPPO × 火山引擎通过大模型强化手机终端识别、理解 和响应用户需求的能力 案例 10 面向生物医学领域打造一站式、智能化 AI 操作系统 Bio-OS 案例 09 华硕与火山引擎合作将大模型集成至“豆叮 AI 助手” 案例 11 火山引擎助力南开大学打造“AI + 教育”新生态 案例 12 大模型改善企业信息搜索体验 案例 13 豆包大模型助力晓多科技“AI 训练场 与 全渠道智能知 识库”智

2024-07-28

读论文Rethinking the Role of Demonstrations What Makes In-Context

【读论文】Rethinking the Role of Demonstrations What Makes In-Context Learning Work

2024-03-09

读论文Rethinking the Role of Demonstrations What Makes In-Context

【读论文】Rethinking the Role of Demonstrations What Makes In-Context Learning Work

2024-03-09

YOLOv8 代码包 修改版

YOLOv8 代码包

2023-09-21

ckpt.t7 DHN.pth osnet-x0-25.pth yolov7

https://github.com/Whiffe/Yolov7-tracker

2023-08-24

ckpt.t7 DHN.pth osnet-x0-25.pth yolov7

https://github.com/Whiffe/Yolov7-tracker

2023-08-24

rfb-face-mask.pth

面部表情识别模型权重 https://github.com/Whiffe/PyTorch-Facial-Expression-Recognition

2023-08-09

latest-model-099-94.7200.pth

面部表情识别模型权重 https://github.com/Whiffe/PyTorch-Facial-Expression-Recognition

2023-08-09

best.pth.tar

https://github.com/choyingw/SynergyNet best.pth.tar

2023-08-05

aflw2000-data.zip

https://github.com/choyingw/SynergyNet aflw2000_data.zip

2023-08-05

3dmm-data.zip

https://github.com/choyingw/SynergyNet 3dmm_data.zip

2023-08-05

EGE C/C++ 贪吃蛇

EGE C/C++ 贪吃蛇

2023-07-05

适用于Yolo训练和测试的coco数据集标签文件 train2017.txt和val2017.txt

适用于Yolo训练和测试的coco数据集标签文件 train2017.txt和val2017.txt和train2017.zip和val2017.zip yolov7 yolov5 yolov8

2023-05-06

yolov7 hand detection

yolov7 hand detection

2022-12-12

Youtube-Hands yolov7 detection

Youtube-Hands yolov7 detection

2022-12-12

face-dataset img 人脸识别 样例

face_dataset img 人脸识别 样例

2022-11-30

人脸识别素材 4张人脸图

人脸识别素材 4张图

2022-11-29

22-8-6 mmaction2 slowfast训练配置 训练日志分析

包含配置文件: 训练日志:20220805_165139.log.json 训练配置:my_slowfast_kinetics_pretrained_r50_4x16x1_20e_ava_rgb.py 训练配置(为了测试训练集的效果):my_slowfast_kinetics_pretrained_r50_4x16x1_20e_ava_rgb2.py

2022-08-06

22-8-4 mmaction2 slowfast训练日志

22-8-4 mmaction2 slowfast训练日志 包含配置文件:my_slowfast_kinetics_pretrained_r50_4x16x1_20e_ava_rgb.py 训练结束后使用最好的checkpoint的参数进行测试,将测试结果存储在:part_0.pkl 训练过程的记录:20220804_185539.log.json

2022-08-05

archery.mp4 行为识别 pytorchvideo demo演示视频(行为识别)

https://pytorchvideo.org/docs/tutorial_torchhub_inference#load-an-example-video archery.mp4 pytorchvideo demo演示视频

2022-07-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除