文章目录~
- 1.GP-GPT: Large Language Model for Gene-Phenotype Mapping
- 2.Veridical Data Science for Medical Foundation Models
- 3.Causal Inference with Large Language Model: A Survey
- 4.AlpaPICO: Extraction of PICO Frames from Clinical Trial Documents Using LLMs
- 5.Can Large Language Models Grasp Event Signals? Exploring Pure Zero-Shot Event-based Recognition
- 6.ASR Error Correction using Large Language Models
- 7.Comparing Retrieval-Augmentation and Parameter-Efficient Fine-Tuning for Privacy-Preserving Personalization of Large Language Models
- 8.LLM-Powered Ensemble Learning for Paper Source Tracing: A GPU-Free Approach
- 9.Efficient Fine-Tuning of Large Language Models for Automated Medical Documentation
- 10.AIPO: Improving Training Objective for Iterative Preference Optimization
- 11.A RAG Approach for Generating Competency Questions in Ontology Engineering
- 12.CPL: Critical Planning Step Learning Boosts LLM Generalization in Reasoning Tasks
- 13.When Context Leads but Parametric Memory Follows in Large Language Models
- 14.Fine-tuning Large Language Models for Entity Matching
- 15.Full-text Error Correction for Chinese Speech Recognition with Large Language Model
- 16.Large Language Models are Pattern Matchers: Editing Semi-Structured and Structured Documents with ChatGPT
- 17.Zero-Shot Machine-Generated Text Detection Using Mixture of Large Language Models
- 18.PiTe: Pixel-Temporal Alignment for Large Video-Language Model
- 19.Leveraging Unstructured Text Data for Federated Instruction Tuning of Large Language Models
1.GP-GPT: Large Language Model for Gene-Phenotype Mapping
标题:GP-GPT:基因表型图谱的大型语言模型
author:Yanjun Lyu, Zihao Wu, Lu Zhang, Jing Zhang, Yiwei Li, Wei Ruan, Zhengliang Liu, Xiaowei Yu, Chao Cao, Tong Chen, Minheng Chen, Yan Zhuang, Xiang Li, Rongjie Liu, Chao Huang, Wentao Li, Tianming Liu, Dajiang Zhu
date Time:2024-09-15
paper pdf:http://arxiv.org/pdf/2409.09825v1
摘要:
由于预训练的大型语言模型(LLMs)在自然语言处理方面的成功,它们在生物医学领域吸引了越来越多的关注。然而,在将这些模型应用于生物信息学和生物医学领域时,多源基因组学数据的复杂特征和异质性带来了巨大的挑战。为了应对这些挑战,我们提出了 GP-GPT,这是第一个用于基因表型知识表示和基因组学关系分析的专业化大型语言模型。我们的模型在一个由超过 3,000,000 个基因组学、蛋白质组学和医学遗传学术语组成的综合语料库上分两个阶段进行了微调,该语料库来自多个大规模验证数据集和科学出版物。GP-GPT 在准确检索医学遗传学信息和执行常见基因组学分析任务(如基因组学信息检索和关系确定)方面表现出色。特定领域任务的对比实验表明,GP-GPT 的性能优于 Llama2、Llama3 和 GPT-4 等最先进的 LLM。这些结果凸显了 GP-GPT 在加强遗传疾病关系研究以及促进基因组学和医学遗传学领域准确高效分析方面的潜力。我们的研究表明,生物因子实体在 GP-GPT 中的表现形式发生了微妙的变化,这为应用 LLMs 推动基因表型研究提供了机会。
2.Veridical Data Science for Medical Foundation Models
标题:医学基础模型的验证数据科学
author:Ahmed Alaa, Bin Yu
date Time:2024-09-15
paper pdf:http://arxiv.org/pdf/2409.10580v1
摘要:
大语言模型(LLM)等基础模型(FM)的出现导致了数据科学在医学及其他领域的文化转变。这种转变包括从针对特定、明确定义的领域问题训练的专业预测模型转向在大量非结构化数据上预先训练的通用 FM,然后再将其调整到各种临床任务和问题上。因此,医学领域的标准数据科学工作流程发生了根本性的改变;基础模型生命周期(FMLC)现在包括不同的上游和下游流程,其中计算资源、模型和数据访问以及决策权分布在多个利益相关者之间。从根本上说,基础模型是统计模型,而这种新的工作流程挑战了 “真实数据科学”(VDS)的原则,阻碍了透明、科学上可重复的数据科学实践中所期望的严格统计分析。我们根据 VDS 的核心原则:可预测性、可计算性和稳定性(PCS)对医学 FMLC 进行了批判性研究,并解释了它是如何偏离标准数据科学工作流程的。最后,我们提出了重新构想医学 FMLC 的建议,以扩展和完善 VDS 的 PCS 原则,包括考虑 FM 固有的计算和访问限制。
3.Causal Inference with Large Language Model: A Survey
标题:使用大型语言模型进行因果推理:调查
author:Jing Ma
publish:15 pages, 2 figures, 3 tables
date Time:2024-09-15
paper pdf:http://arxiv.org/pdf/2409.09822v1
摘要:
因果推理一直是医学和经济学等不同领域面临的关键挑战,需要复杂地整合人类知识、数学推理和数据挖掘能力。自然语言处理(NLP)领域的最新进展,尤其是大型语言模型(LLM)的出现,为传统的因果推理任务带来了大有可为的机遇。本文回顾了将 LLM 应用于因果推理的最新进展,其中包括跨越不同因果层次的各种任务。我们总结了主要的因果问题和方法,并对它们在不同因果场景中的评估结果进行了比较。此外,我们还讨论了主要发现并概述了未来的研究方向,强调了将 LLMs 集成到因果推理方法中的潜在意义。
4.AlpaPICO: Extraction of PICO Frames from Clinical Trial Documents Using LLMs
标题:AlpaPICO:使用 LLM 从临床试验文档中提取 PICO 框架
author:Madhusudan Ghosh, Shrimon Mukherjee, Asmit Ganguly, Partha Basuchowdhuri, Sudip Kumar Naskar, Debasis Ganguly
publish:Accepted at Methods
date Time:2024-09-15
paper pdf:http://arxiv.org/pdf/2409.09704v1
摘要:
近年来,临床试验报告的发表量激增,给系统性综述带来了挑战。从临床试验研究中自动提取人群、干预措施、比较者和结果(PICO)可减轻传统上耗时的人工审查系统综述的过程。现有的 PICO 框架提取方法涉及监督方法,这种方法依赖于以 BIO 标签标记形式存在的人工注释数据点。最近的方法,如 “上下文学习”(In-Context Learning,简称 ICL),已被证明对许多下游 NLP 任务有效,但它需要使用标注示例。在这项工作中,我们采用了 ICL 策略,利用在 LLM 预训练阶段收集到的大语言模型(LLM)的预训练知识,在无监督设置下从临床试验文档中自动提取与 PICO 相关的术语,从而绕过了大量注释数据实例的可用性问题。此外,为了在有大量注释样本的甲骨文场景中展示 LLM 的最高效能,我们采用了低等级适应(LORA)的指令调整策略,在低资源环境中针对 PICO 框架提取任务进行巨大模型的训练。我们的实证结果表明,我们提出的基于ICL的框架在所有版本的EBM-NLP数据集上都产生了可比较的结果,而我们提出的指令调整版本的框架在所有不同的EBM-NLP数据集上都产生了最先进的结果。我们的项目可在(url{https://github.com/shrimonmuke0202/AlpaPICO.git}.
5.Can Large Language Models Grasp Event Signals? Exploring Pure Zero-Shot Event-based Recognition
标题:大型语言模型能否把握事件信号?探索基于事件的纯零镜头识别
author:Zongyou Yu, Qiang Qu, Xiaoming Chen, Chen Wang
date Time:2024-09-15
paper pdf:http://arxiv.org/pdf/2409.09628v1
摘要:
最近,基于事件的零镜头物体识别技术取得了长足的进步。然而,这些方法在很大程度上依赖于大量的训练,并且受到 CLIP 特性的内在限制。据我们所知,这项研究是首次探索大型语言模型(LLM)对基于事件的视觉内容的理解能力。我们证明,大型语言模型无需额外的训练或微调,就能结合 CLIP 实现基于事件的对象识别,从而有效地实现纯粹的零镜头事件识别。特别是,我们评估了 GPT-4o / 4turbo 和其他两种开源 LLM 直接识别基于事件的视觉内容的能力。我们在三个基准数据集上进行了广泛的实验,系统地评估了这些模型的识别准确率。结果表明,LLMs(尤其是通过精心设计的提示进行增强时)能显著提高基于事件的零镜头识别性能。值得注意的是,GPT-4o 在 N-ImageNet 上的识别准确率超过了所比较的模型,并比最先进的基于事件的零点识别方法高出五个数量级。本文的实现可在(url{https://github.com/ChrisYu-Zz/Pure-event-based-recognition-based-LLM}.
6.ASR Error Correction using Large Language Models
标题:使用大型语言模型进行 ASR 纠错
author:Rao Ma, Mengjie Qian, Mark Gales, Kate Knill
publish:Submitted to IEEE Transactions on Audio, Speech and Language
Processing
date Time:2024-09-14
paper pdf:http://arxiv.org/pdf/2409.09554v1
摘要:
纠错(EC)模型在完善自动语音识别(ASR)转录、提高转录的可读性和质量方面发挥着至关重要的作用。在不需要访问底层代码或模型权重的情况下,纠错模型可以提高性能,并为黑盒 ASR 系统提供领域适应性。这项工作研究了在不同场景中使用大型语言模型(LLM)进行纠错。1-best ASR 假设通常用作 EC 模型的输入。我们建议使用 ASR N-best 列表来构建高性能 EC 模型,这将为纠错过程提供更多上下文信息。此外,标准语音识别模型的生成过程不受限制,可以生成任何输出序列。对于某些场景,如未见领域,这种灵活性可能会影响性能。为了解决这个问题,我们引入了一种基于 N 个最佳列表或 ASR 网格的受限解码方法。最后,大多数 EC 模型都是针对特定 ASR 系统训练的,每当底层 ASR 系统发生变化时都需要重新训练。本文探讨了 EC 模型对不同 ASR 系统的输出进行操作的能力。这一概念被进一步扩展到使用 LLM(如 ChatGPT)进行零次错误纠正。在三个标准数据集上进行的实验证明,我们提出的方法对传感器和基于注意力的编码器-解码器 ASR 系统都很有效。此外,我们提出的方法还可以作为模型组合的有效方法。
7.Comparing Retrieval-Augmentation and Parameter-Efficient Fine-Tuning for Privacy-Preserving Personalization of Large Language Models
标题:比较检索增强与参数有效微调,实现大型语言模型的隐私保护个性化
author:Alireza Salemi, Hamed Zamani
date Time:2024-09-14
paper pdf:http://arxiv.org/pdf/2409.09510v1
摘要:
用于个性化大型语言模型(LLM)的隐私保护方法相对来说还没有得到充分探索。在这个问题上有两派观点:(1) 通过用户个人信息的检索增强来个性化输入提示,从而生成个性化输出(基于 RAG 的方法);(2) 考虑效率和空间限制,对每个用户的 LLM 进行参数高效微调(基于 PEFT 的方法)。本文首次利用七个不同的数据集,对两种方法在各种个性化任务中的应用进行了系统比较。结果表明,与非个性化 LLM 相比,基于 RAG 和基于 PEFT 的个性化方法平均分别提高了 14.92% 和 1.07%。我们发现,将 RAG 与 PEFT 结合使用可将这些改进提高到 15.98%。此外,我们还发现用户数据量与 PEFT 的有效性之间存在正相关,这表明 RAG 是冷启动用户(即个人数据有限的用户)的更好选择。
8.LLM-Powered Ensemble Learning for Paper Source Tracing: A GPU-Free Approach
标题:用于纸张源头追踪的 LLM 驱动的集合学习:无 GPU 方法
author:Kunlong Chen, Junjun Wang, Zhaoqun Chen, Kunjin Chen, Yitian Chen
date Time:2024-09-14
paper pdf:http://arxiv.org/pdf/2409.09383v2
摘要:
我们参加了 KDD CUP 2024 论文来源追踪竞赛,并取得了第三名的好成绩。这项比赛要求参赛者识别给定学术论文的参考源(即比赛组织者所说的参考源)。与大多数通过微调预训练神经语言模型(如 BERT 或 ChatGLM)来应对这一挑战的团队不同,我们的主要方法是利用闭源大型语言模型(LLM)。随着 LLM 技术的不断进步,闭源 LLM 已证明有能力在 "零镜头 "或 "少镜头 "场景下处理复杂的推理任务。因此,在没有 GPU 的情况下,我们使用闭源 LLM 直接从提供的论文中生成预测参考源。我们通过集合学习进一步完善了这些预测。值得注意的是,我们的方法是获奖方法中唯一不需要使用 GPU 进行模型训练的方法。代码见 https://github.com/Cklwanfifa/KDDCUP2024-PST。
9.Efficient Fine-Tuning of Large Language Models for Automated Medical Documentation
标题:高效微调大型语言模型,实现医学文档自动化
author:Hui Yi Leong, Yi Fan Gao, Ji Shuai, Uktu Pamuksuz
publish:4 pages, 3 Figures, 3 Tables, This is a preprint version of the
article. The final version will be published in the proceedings of the IEEE
conference
date Time:2024-09-14
paper pdf:http://arxiv.org/pdf/2409.09324v1
摘要:
科学研究表明,医生在直接护理病人方面每花费一小时,就会在行政工作上多花费近两小时,尤其是在电子健康记录(EHR)和案头工作上。这种过重的行政负担不仅减少了用于患者护理的时间,还导致了医生的职业倦怠和医疗服务效率低下。为了应对这些挑战,本研究引入了 MediGen,这是一种经过微调的大型语言模型(LLM),旨在根据医疗对话自动生成医疗报告。通过利用最先进的方法对开源预训练模型(包括 LLaMA3-8B)进行微调,MediGen 在转录和总结临床互动方面实现了高准确度。经过微调的 LLaMA3-8B 模型取得了可喜的成果,其 ROUGE 分数达到 58%,BERTScore-F1 分数达到 72%,这表明它在生成准确的临床相关医疗报告方面非常有效。这些研究结果表明,MediGen 有可能大大减轻医生的行政工作量,提高医疗效率和医生的福利。
10.AIPO: Improving Training Objective for Iterative Preference Optimization
标题:AIPO:改进迭代偏好优化的训练目标
author:Yaojie Shen, Xinyao Wang, Yulei Niu, Ying Zhou, Lexin Tang, Libo Zhang, Fan Chen, Longyin Wen
date Time:2024-09-13
paper pdf:http://arxiv.org/pdf/2409.08845v1
摘要:
偏好优化(Preference Optimization,PO)作为近端策略优化(Proximal Policy Optimization,PPO)的替代选择,在大型语言模型(Large Language Models,LLMs)对齐中越来越受欢迎。最近关于使用合成或部分合成数据迭代对齐 LLM 的研究表明,在学术环境和 Llama3 等专有训练模型的 PO 训练扩展方面都取得了可喜的成果。尽管取得了成功,但我们的研究表明,由于迭代优选优化(IPO)过程的迭代性质,PO 中存在的长度利用问题在迭代优选优化中更为严重。在这项工作中,我们利用合成数据研究了迭代偏好优化。我们分享了在构建迭代偏好优化管道过程中的发现和分析。更具体地说,我们讨论了迭代偏好优化过程中的长度利用问题,并提出了迭代偏好优化的训练目标,即协议感知迭代偏好优化(AIPO)。为了证明我们方法的有效性,我们进行了全面的实验,并在 MT-Bench、AlpacaEval 2.0 和 Arena-Hard 上取得了最先进的性能。我们的实现和模型检查点将发布在 https://github.com/bytedance/AIPO 上。
11.A RAG Approach for Generating Competency Questions in Ontology Engineering
标题:本体论工程中生成能力问题的 RAG 方法
author:Xueli Pan, Jacco van Ossenbruggen, Victor de Boer, Zhisheng Huang
date Time:2024-09-13
paper pdf:http://arxiv.org/pdf/2409.08820v1
摘要:
能力问题(CQ)的提出是若干本体开发和评估方法的核心。传统上,编制这些能力问题的任务主要依赖于领域专家和知识工程师的努力,这通常既耗时又耗力。随着大型语言模型(LLM)的出现,这一过程有了自动化和增强的可能性。与使用现有本体或知识图谱作为 LLMs 输入的其他类似工作不同,我们提出了一种检索增强生成(RAG)方法,该方法使用 LLMs 自动生成 CQ,给定一组被视为领域知识库的科学论文。我们对其性能进行了研究,特别是研究了不同数量的论文对 RAG 的影响以及 LLM 的不同温度设置。我们使用 GPT-4 对两个领域本体工程任务进行了实验,并将实验结果与领域专家构建的地面实况 CQ 进行了比较。利用评价指标(精确度和一致性)对结果进行的实证评估显示,与零次提示相比,在 RAG 中添加相关领域知识可提高 LLM 为具体本体工程任务生成 CQ 的性能。
12.CPL: Critical Planning Step Learning Boosts LLM Generalization in Reasoning Tasks
标题:CPL:关键规划步骤学习可提高推理任务中的 LLM 通用性
author:Tianlong Wang, Xueting Han, Jing Bai
date Time:2024-09-13
paper pdf:http://arxiv.org/pdf/2409.08642v1
摘要:
对大型语言模型(LLM)进行后训练以开发推理能力,已被证明在数学推理和代码生成等不同领域行之有效。然而,现有的方法主要侧重于改进特定任务的推理能力,却没有充分解决模型在更广泛的推理任务中的泛化能力问题。为了应对这一挑战,我们引入了关键规划步骤学习(CPL),它利用蒙特卡洛树搜索(MCTS)来探索多步骤推理任务中的各种规划步骤。基于长期结果,CPL 学习步骤级规划偏好,以提高模型的规划能力,进而提高其一般推理能力。此外,现有的偏好学习方法(如直接偏好优化(DPO))虽然在很多情况下能有效地调整 LLM,但由于无法捕捉每一步的细粒度监督,因此在复杂的多步骤推理任务中很难发挥作用。我们提出了步骤级优势偏好优化(Step-APO),它将通过 MCTS 获得的步骤级偏好对的优势估计整合到了 DPO 中。这使模型能够更有效地学习关键的中间规划步骤,从而进一步提高其在推理任务中的泛化能力。实验结果表明,我们的方法专门在 GSM8K 和 MATH 上进行训练,不仅显著提高了 GSM8K(+10.5%)和 MATH(+6.5%)的性能,还增强了域外推理基准,如 ARC-C(+4.0%)、BBH(+1.8%)、MMLU-STEM(+2.2%)和 MMLU(+0.9%)。
13.When Context Leads but Parametric Memory Follows in Large Language Models
标题:当大型语言模型中上下文先行而参数记忆后行时
author:Yufei Tao, Adam Hiatt, Erik Haake, Antonie J. Jetter, Ameeta Agrawal
date Time:2024-09-13
paper pdf:http://arxiv.org/pdf/2409.08435v1
摘要:
大型语言模型(LLM)在利用各种知识源方面取得了显著进步。本研究调查了九种广泛使用的大型语言模型在回答知识一致性场景中的开放式问题时,如何在本地上下文和全局参数之间分配知识。我们引入了一个新颖的数据集 WikiAtomic,并系统地改变上下文大小,以分析 LLMs 在知识一致性场景中如何优先利用所提供的信息及其参数知识。此外,我们还研究了他们在不同语境大小下产生幻觉的倾向。我们的研究结果揭示了不同模型之间的一致模式,包括对上下文知识(约占 70%)和参数知识(约占 30%)的一致依赖,以及幻觉随着上下文的增加而减少。这些洞察力凸显了更有效地组织上下文和开发更确定性地使用输入的模型对实现稳健性能的重要性。
14.Fine-tuning Large Language Models for Entity Matching
标题:微调用于实体匹配的大型语言模型
author:Aaron Steiner, Ralph Peeters, Christian Bizer
publish:8 pages, 4 figures. For related code and data, see this
https://github.com/wbsg-uni-mannheim/TailorMatch
date Time:2024-09-12
paper pdf:http://arxiv.org/pdf/2409.08185v1
摘要:
生成式大型语言模型(LLMs)具有较高的归零性能,并且能够泛化到未见过的实体,因此在实体匹配方面是预训练语言模型的一个很有前途的替代品。关于使用 LLMs 进行实体匹配的现有研究主要集中在提示工程和上下文学习方面。本文探讨了微调 LLMs 用于实体匹配的潜力。我们从两个方面对微调进行了分析:1)训练示例的表示,我们尝试在训练集中添加不同类型的 LLM 生成的解释;2)使用 LLM 选择和生成训练示例。除了源数据集上的匹配性能外,我们还研究了微调如何影响模型泛化到其他域内数据集以及跨主题域的能力。我们的实验表明,微调显著提高了较小模型的性能,而较大模型的结果则好坏参半。微调还提高了对域内数据集的泛化能力,但却损害了跨域转移能力。我们的研究表明,在训练集中添加结构化解释对四个 LLM 中三个模型的性能有积极影响,而建议的示例选择和生成方法只能提高 Llama 3.1 8B 的性能,同时降低 GPT-4o Mini 的性能。
15.Full-text Error Correction for Chinese Speech Recognition with Large Language Model
标题:利用大语言模型为中文语音识别进行全文纠错
author:Zhiyuan Tang, Dong Wang, Shen Huang, Shidong Shang
date Time:2024-09-12
paper pdf:http://arxiv.org/pdf/2409.07790v1
摘要:
大型语言模型(LLM)在自动语音识别(ASR)中的纠错方面具有巨大潜力。然而,大多数研究都集中在短时语音记录中的语句上,而短时语音记录是有监督自动语音识别(ASR)训练的主要语音数据形式。本文研究了 LLM 在 ASR 系统从较长的语音记录(如播客、新闻广播和会议的文字记录)生成的全文中进行纠错的有效性。首先,我们开发了一个用于全文纠错的中文数据集(名为 ChFT),该数据集采用了一个包含文本到语音合成、ASR 和纠错对提取器的管道。通过该数据集,我们可以纠正包括全文和片段在内的各种上下文错误,并处理更广泛的错误类型,如标点符号还原和反向文本规范化,从而使纠错过程更加全面。其次,我们使用一系列不同的提示和目标格式,在构建的数据集上对预先训练的 LLM 进行微调,并评估其在全文纠错方面的性能。具体来说,我们设计了基于全文和分段的提示,并考虑了各种输出格式,如直接纠错文本和基于 JSON 的纠错对。通过各种测试设置(包括同质测试集、最新测试集和困难测试集),我们发现经过微调的 LLM 在不同提示的全文设置中表现良好,且各有优缺点。这为进一步的研究奠定了良好的基础。该数据集可在网站上获取。
16.Large Language Models are Pattern Matchers: Editing Semi-Structured and Structured Documents with ChatGPT
标题:大语言模型是模式匹配器:使用 ChatGPT 编辑半结构化和结构化文档
author:Irene Weber
date Time:2024-09-12
paper pdf:http://arxiv.org/pdf/2409.07732v1
摘要:
大型语言模型(LLMs)的应用领域非常广泛,但人们还不了解其全部范围。本文研究了 LLM 是否可用于编辑结构化和半结构化文档,而且只需最小的工作量。我们采用定性研究方法,使用 ChatGPT 进行了两项案例研究,并对结果进行了深入分析。我们的实验表明,当提供基本、直接的提示时,LLM 可以有效地编辑结构化和半结构化文档。ChatGPT 展示了识别和处理注释文档结构的强大能力。这表明,在提示中对任务和数据进行明确的结构化处理可能会提高 LLM 理解和解决任务的能力。此外,实验还揭示了 ChatGPT 令人印象深刻的模式匹配技能。这一观察结果值得进一步研究,因为它可能有助于理解导致 LLM 产生幻觉的过程。
17.Zero-Shot Machine-Generated Text Detection Using Mixture of Large Language Models
标题:使用大型语言模型混合物进行零镜头机器生成文本检测
author:Matthieu Dubois, François Yvon, Pablo Piantanida
publish:Preprint, work in progress
date Time:2024-09-11
paper pdf:http://arxiv.org/pdf/2409.07615v1
摘要:
经过大规模训练并具备强大文本生成能力的大型语言模型(LLM)的传播,降低了生成有害、有毒、虚假或伪造内容的成本,从而大大增加了生成式人工智能技术带来的威胁。为此,人们提出了各种建议,以自动区分人工生成的文本和人类撰写的文本,通常将这一问题视为分类问题。大多数方法都是通过精心选择的检测器 LLM 来评估输入文档,并假定低复杂度分数是机器生成内容的可靠信号。由于使用单一检测器会导致性能脆性,我们转而考虑多个检测器,并推导出一种新的、以理论为基础的方法来结合它们各自的优势。我们使用各种生成器 LLM 进行的实验表明,我们的方法能有效提高检测的鲁棒性。
18.PiTe: Pixel-Temporal Alignment for Large Video-Language Model
标题:PiTe:大型视频语言模型的像素时空对齐
author:Yang Liu, Pengxiang Ding, Siteng Huang, Min Zhang, Han Zhao, Donglin Wang
date Time:2024-09-11
paper pdf:http://arxiv.org/pdf/2409.07239v1
摘要:
在大型语言模型(LLMs)浪潮的推动下,大型可视语言模型(LVLMs)已成为弥合图像与文本之间鸿沟的关键进展。然而,由于语言与时空数据结构之间关系的复杂性,视频使得 LVLMs 难以充分发挥作用。最近的大型视频语言模型(LVidLMs)通过一般的多模态任务,将图像等静态视觉数据的特征整合到语言特征的潜在空间中,以充分发挥 LLMs 的能力。在本文中,我们将同时从空间和时间两个维度,针对不同模态探索通过物体轨迹进行细粒度配准的方法。因此,我们提出了一种由轨迹引导的像素-时间对齐(Pixel-Temporal Alignment)的新型 LVidLM,并将其命名为 PiTe,这种 LVidLM 具有良好的适用模型特性。为了实现精细的视频语言配准,我们策划了一个多模态预训练数据集 PiTe-143k,该数据集通过我们的自动注释管道,为视频和字幕中出现和提及的所有单个对象提供了像素级的移动轨迹。同时,PiTe 在无数与视频相关的多模态任务中表现出了惊人的能力,大大超越了最先进的方法。
19.Leveraging Unstructured Text Data for Federated Instruction Tuning of Large Language Models
标题:利用非结构化文本数据对大型语言模型进行联合教学调整
author:Rui Ye, Rui Ge, Yuchi Fengting, Jingyi Chai, Yanfeng Wang, Siheng Chen
publish:11 pages, work in progress
date Time:2024-09-11
paper pdf:http://arxiv.org/pdf/2409.07136v1
摘要:
联合指令调谐使多个客户端能够协作微调一个共享的大型语言模型(LLM),该模型能够遵循人类指令,而无需直接共享原始数据。然而,现有文献不切实际地要求所有客户端都能随时掌握指令调整数据(即结构化指令-响应对),这就需要大量的人工注释,因为客户端的数据通常是非结构化文本。针对这一问题,我们提出了一个新颖灵活的框架 FedIT-U2S,它可以自动将非结构化语料转化为结构化数据,用于联合指令调整。FedIT-U2S 包括两个关键步骤:(1) 生成少量指令调整数据,将每个非结构化数据片段与若干示例结合起来,促使 LLM 生成指令-响应对。为了进一步提高灵活性,还提出了一种基于检索的示例选择技术,即根据客户数据片段与示例池之间的相关性自动选择示例,而无需事先确定示例。(2) 基于生成数据的典型联合指令调整过程。总体而言,只要客户端拥有有价值的文本语料库,FedIT-U2S 就能应用于各种场景,拓宽了联合指令调优的应用范围。我们在三个领域(医学、知识和数学)进行了一系列实验,结果表明我们提出的 FedIT-U2S 可以持续、显著地改善基础 LLM。