QAEA-DR:用于密集检索的统一文本增强框架
原标题: QAEA-DR: A Unified Text Augmentation Framework for Dense Retrieval
作者: Hongming Tan, Shaoxiong Zhan, Hai Lin, Hai-Tao Zheng, Wai Kin (Victor)Chan
机构: 清华大学 深圳国际研究生院 鹏城实验室
摘要: 在密集检索中,将长文本嵌入到密集向量中可能导致信息丢失,从而导致不准确的查询-文本匹配。此外,质量低下的文本具有过多噪音或稀疏关键信息,不太可能与相关查询很好地对齐。最近的研究主要集中在改进句子嵌入模型或检索过程上。在这项工作中,我们引入了一种新颖的文本增强框架用于密集检索。该框架将原始文档转换为信息密集的文本格式,这些文本格式补充了原始文本,有效地解决了上述问题,而无需修改嵌入或检索方法。通过大型语言模型(LLMs)零样本提示生成了两种文本表示:问题-答案对和元素驱动事件。我们将这种方法称为QAEA-DR:将问题-答案生成和事件提取统一到一个文本增强框架中,用于密集检索。为了进一步提高生成文本的质量,引入了基于评分的评估和再生机制在LLM提示中。我们的QAEA-DR模型对密集检索产生了积极影响,得到了理论分析和实证实验的支持。
论文链接: https://arxiv.org/abs/2407.20207
研究半监督方法与数据增强对罗马尼亚语中的冒犯性语言检测的影响
原标题: Investigating the Impact of Semi-Supervised Methods with Data Augmentation on Offensive Language Detection in Romanian Language
作者: Elena Beatrice Nicola, Dumitru Clementin Cercel, Florin Pop
机构: 国家科技POLITEHNICA布加勒斯特大学 自动控制与计算机学院 罗马尼亚
罗马尼亚信息研究与发展国家研究所(ICI)布加勒斯特 罗马尼亚
罗马尼亚科学院 罗马尼亚
摘要: 在当今数字化环境中,检测冒犯性语言是一项至关重要的任务,在线平台需要努力维护一个尊重和包容的环境。然而,构建强大的冒犯性语言检测模型需要大量标记数据,这可能会很昂贵且耗时。半监督学习提供了一种可行的解决方案,通过利用带标签和无标签数据来创建更准确和强大的模型。在本文中,我们探讨了几种不同的半监督方法,以及数据增强技术。具体来说,我们实现了八种半监督方法,并对它们进行了实验,仅使用 RO-Offense 数据集中的可用数据,并在将数据馈送到模型之前应用了五种增强技术。实验结果表明,其中一些方法比其他方法更受益于增强技术。
论文链接: https://arxiv.org/abs/2407.20076
编辑大语言模型会带来危害吗?
原标题: Can Editing LLMs Inject Harm?
作者: Canyu Chen, Baixiang Huang, Zekun Li, Zhaorun Chen, Shiyang Lai, Xiongxiao Xu, Jia-Chen Gu, Jindong Gu, Huaxiu Yao, Chaowei Xiao, Xifeng Yan, William Yang Wang, Philip Torr, Dawn Song, Kai Shu
机构: 伊利诺伊理工学院 加州大学圣巴巴拉分校 芝加哥大学 加州大学洛杉矶分校 牛津大学 北卡罗来纳大学教堂山分校 威斯康星大学麦迪逊分校 加州大学伯克利分校
摘要: 知识编辑技术越来越被广泛采用,以有效地纠正大型语言模型(LLMs)中的错误或过时知识,这是因为从头开始重新训练的成本很高。与此同时,一个关键但未被充分探讨的问题是:知识编辑是否可以用来向LLMs注入危害?在本文中,我们提出将知识编辑重新构想为LLMs的一种新型安全威胁,即编辑攻击,并利用新构建的数据集EditAttack进行系统调查。具体而言,我们关注编辑攻击的两种典型安全风险,包括误导性注入和偏见注入。对于误导性注入的风险,我们首先将其分类为常识误导性注入和长尾误导性注入。然后,我们发现编辑攻击可以向LLMs注入这两种类型的误导信息,尤其对于常识误导性注入的效果特别显著。对于偏见注入的风险,我们发现不仅可以高效地向LLMs注入带有偏见的句子,而且单个带有偏见的句子注入就可以导致LLMs的一般输出中偏见增加,即使这些输出与注入的句子高度不相关,这表明对LLMs整体公平性的影响是灾难性的。然后,我们进一步说明了编辑攻击的高隐蔽性,通过它们对LLMs的一般知识和推理能力的影响来衡量,并展示了用实证证据捍卫编辑攻击的困难性。我们的发现表明了知识编辑技术在损害LLMs安全对齐方面的新兴误用风险。
论文链接: https://arxiv.org/abs/2407.20224
MindSearch:模仿人类思维引发深度 AI 搜索者
原标题: MindSearch: Mimicking Human Minds Elicits Deep AI Searcher
作者: Zehui Chen, Kuikun Liu, Qiuchen Wang, Jiangning Liu, Wenwei Zhang, Kai Chen, Feng Zhao
机构: 中国科学技术大学 上海人工智能实验室
摘要: 信息搜索和整合是一项复杂的认知任务,消耗大量时间和精力。受到大语言模型取得的显著进展的启发,最近的研究尝试通过结合大语言模型和搜索引擎来解决这一任务。然而,由于三个挑战,这些方法仍然无法获得令人满意的性能:(1)复杂请求往往无法被搜索引擎准确完整地检索一次;(2)要整合的相关信息分布在多个网页上,伴随着大量噪音;(3)大量内容较长的网页可能会迅速超出大语言模型的最大上下文长度。受到人类解决这些问题时的认知过程的启发,我们引入MindSearch来模拟人类在网络信息搜索和整合中的思维,这可以通过一个简单而有效的基于大语言模型的多智能体框架来实现。WebPlanner将多步信息搜索的人类思维建模为动态图构建过程:它将用户查询分解为图中的原子子问题节点,并根据WebSearcher的搜索结果逐步扩展图。WebSearcher负责每个子问题,通过搜索引擎执行分层信息检索,并为WebPlanner收集有价值的信息。MindSearch的多智能体设计使整个框架能够在3分钟内并行地从更大规模(例如超过300)的网页中搜索和整合信息,相当于人类3小时的工作量。MindSearch在深度和广度方面显著提高了响应质量,无论是在封闭集还是开放集的问答问题上。此外,基于InternLM2.5-7B的MindSearch的响应比ChatGPT-Web和这个http URL应用更受人类青睐,这意味着MindSearch已经能够为专有AI搜索引擎提供有竞争力的解决方案。
论文链接: https://arxiv.org/abs/2407.20183
其他链接: http://Perplexity.ai
一个基于能量的模型,用于计算机辅助翻译中的单词级自动完成。
原标题: An Energy-based Model for Word-level AutoCompletion in Computer-aided Translation
作者: Cheng Yang, Guoping Huang, Mo Yu, Zhirui Zhang, Siheng Li, Mingming Yang, Shuming Shi, Yujiu Yang, Lemao Liu
机构: 清华大学深圳国际研究生院 腾讯人工智能实验室 腾讯 微信人工智能
摘要: 词级自动补全(WLAC)是计算机辅助翻译中一个具有挑战性但有价值的任务。现有工作通过基于神经网络的分类模型来解决这一任务,该模型将输入上下文的隐藏向量映射到其相应的标签(即,候选目标词被视为标签)。由于上下文隐藏向量本身不考虑标签,并且通过线性分类器将其投影到标签,因此模型无法充分利用源句中的宝贵信息,这在我们的实验中得到验证,最终影响了其整体性能。为了缓解这一问题,本文提出了一种基于能量的模型用于WLAC,使得上下文隐藏向量能够捕获源句中的关键信息。不幸的是,训练和推断过程中存在效率和有效性方面的挑战,因此我们采用了三种简单而有效的策略来实现我们的模型。对四个标准基准的实验表明,我们基于重新排序的方法比先前的最先进模型实现了显著改进(约6.07%)。进一步分析显示我们方法的每个策略都对最终性能有所贡献。
论文链接: https://arxiv.org/abs/2407.20083
探索大语言模型以生成易读内容
原标题: Exploring Large Language Models to generate Easy to Read content
作者: Paloma Martínez, Lourdes Moreno, Alberto Ramos
机构: 马德里卡洛斯三世大学
摘要: 确保文本的可访问性和易理解性是重要目标,特别是对于认知障碍和智力残疾的个体,他们在访问各种媒介上的信息时会遇到挑战,比如网页、报纸、行政任务或健康文件。类似易读性和简明语言指南的倡议旨在简化复杂文本;然而,标准化这些指南仍然具有挑战性,并且通常涉及手动流程。这项工作介绍了一项探索性研究,利用人工智能(AI)和自然语言处理(NLP)方法系统地将西班牙文本简化为易读格式,重点是利用大语言模型(LLMs)简化文本,特别是生成易读内容。该研究提供了一份适用于易读格式的西班牙语平行语料库,可用作训练和测试文本简化系统的宝贵资源。此外,利用LLMs和收集的语料库进行了几项文本简化实验,包括微调和测试Llama2模型以生成易读内容。通过易读内容文本改编专家指导的定性评估用于评估自动简化的文本。这项研究有助于推进认知障碍个体的文本可访问性,突出了在负责任地管理能源使用的同时利用LLMs的有希望的策略。
论文链接: https://arxiv.org/abs/2407.20046
基于临床访谈的自动检测抑郁症和阿尔茨海默病的信心估计
原标题: Confidence Estimation for Automatic Detection of Depression and Alzheimer’s Disease Based on Clinical Interviews
作者: Wen Wu, Chao Zhang, Philip C. Woodland
机构: 剑桥大学 清华大学
摘要: 基于语音的自动检测阿尔茨海默病(AD)和抑郁症已经引起了越来越多的关注。置信度估计对于一个可信赖的自动诊断系统至关重要,它通知临床医生关于模型预测的置信度,并有助于减少误诊的风险。本文研究了基于临床访谈的自动检测AD和抑郁症的置信度估计。提出了一种新颖的贝叶斯方法,该方法使用动态狄利克雷先验分布来建模预测分布的二阶概率。对公开可用的ADReSS和DAIC-WOZ数据集的实验结果表明,所提出的方法在分类准确性和置信度估计方面均优于一系列基线方法。
论文链接: https://arxiv.org/abs/2407.19984
一种关于社交媒体用户身份解析的时间心理语言学方法
原标题: A Temporal Psycholinguistics Approach to Identity Resolution of Social Media Users
作者: Md Touhidul Islam
摘要: 在这篇论文中,我们提出了一种跨社交媒体平台进行身份解析的方法,利用平台上的帖子主题、情感和时间。在收集了来自 Disqus 和 Twitter 约 5000 个个人资料的公开帖子后,我们分析它们的帖子以匹配这些个人资料在两个平台上的对应关系。我们在分析中采用了时间和非时间方法。虽然两种方法都没有明显优势,但时间方法通常表现更好。我们发现时间窗口大小对结果的影响大于移动量。另一方面,我们的情感分析显示,情感的包含几乎没有什么影响,可能是由于数据提取方法存在缺陷。我们还尝试了基于距离的奖惩重点评分模型,其在我们收集的语料库中取得了24.198%的准确率和2525个样本中的平均排名158.217。未来的工作包括通过评估每个主题的情感来完善情感分析,通过增加额外阶段来扩展时间分析,并通过权重调整和修改奖励来改进评分模型。
论文链接: https://arxiv.org/abs/2407.19967
大语言模型真的能够适应领域吗?一个本体学习的视角
原标题: Do LLMs Really Adapt to Domains? An Ontology Learning Perspective
作者: Huu Tan Mai, Cuong Xuan Chu, Heiko Paulheim
机构: 曼海姆大学 博世人工智能中心
摘要: 大语言模型(LLMs)已经在各种应用领域的各种自然语言处理任务中展示了前所未有的能力。最近的研究表明,LLMs可以被利用来执行词汇语义任务,比如知识库完成(KBC)或本体学习(OL)。然而,他们的成功是由于他们能够推理无结构或半结构数据,还是仅仅是他们有效地学习了语言模式和意义,这一问题尚未得到有效验证。当处理特定领域数据时,这个未解决的问题尤为重要,因为在这些领域中,词汇意义及其含义可能与LLM在训练阶段学到的完全不同。本文探讨以下问题:LLMs是否真正适应领域并在提取结构化知识方面保持一致,还是仅仅学习了词汇意义而没有推理能力?为了回答这个问题,我们设计了一个受控实验设置,使用WordNet来合成平行语料库,包括英语和胡言乱语术语。我们研究LLMs在两个本体学习任务中对每个语料库输出的差异:关系提取和分类发现。实证结果表明,虽然适应于胡言乱语语料库,现成的LLMs并不一致地推理概念之间的语义关系,而是利用意义及其框架。然而,微调改善了LLMs在词汇语义任务上的表现,即使在预训练期间未见过任意特定领域术语,这暗示了预训练LLMs在本体学习中的适用性。
论文链接: https://arxiv.org/abs/2407.19998
利用“楼梯”辅助贪婪生成加速大语言模型推理
原标题: Inference acceleration for large language models using “stairs” assisted greedy generation
作者: Domas Grigaliūnas, Mantas Lukoševičius
机构: 考纳斯理工大学
摘要: 拥有数十亿参数的大语言模型(LLMs)以其出色的预测能力而闻名,但需要大量资源才能运行。随着它们在流行度上的快速增长,即使所需资源稍有减少也可能对环境产生影响。另一方面,较小的模型需要更少的资源,但可能会牺牲准确性。在这项工作中,我们提出了一种“楼梯”辅助贪婪生成的实现。这是一种修改后的辅助生成方法,利用较小模型的快速生成、大模型的批量预测和“楼梯”验证,以实现预测生成速度的加快。结果显示,在文本生成任务中,与独立的大型LLM预测相比,推理时间减少了9.58%至17.24%,而准确性没有损失。
论文链接: https://arxiv.org/abs/2407.19947
WMT24 通用机器翻译系统和大语言模型的初步排名
原标题: Preliminary WMT24 Ranking of General MT Systems and LLMs
作者: Tom Kocmi, Eleftherios Avramidis, Rachel Bawden, Ondrej Bojar, Anton Dvorkovich, Christian Federmann, Mark Fishel, Markus Freitag, Thamme Gowda, Roman Grundkiewicz, Barry Haddow, Marzena Karpinska, Philipp Koehn, Benjamin Marie, Kenton Murray, Masaaki Nagata, Martin Popel, Maja Popovic, Mariya Shmatova, Steinþór Steingrímsson, Vilém Zouhar
摘要: 这是基于自动度量标准的 WMT24 通用机器翻译系统初步排名。官方排名将由人类评估完成,人类评估优于自动排名并取代它。本报告的目的不在解释任何发现,而只是向通用机器翻译任务的参与者提供初步结果,这些结果可能在编写系统提交时有所帮助。
论文链接: https://arxiv.org/abs/2407.19884
利用大语言模型进行对立陶宛在线评论的情感分析
原标题: Sentiment Analysis of Lithuanian Online Reviews Using Large Language Models
作者: Brigita Vileikytė, Mantas Lukoševičius, Lukas Stankevičius
机构: 高科技大学,信息学院,立陶宛 没有其他名称
摘要: 情感分析是自然语言处理(NLP)领域内一个广泛研究的领域,由于自动化解决方案的出现,它吸引了极大的兴趣。尽管如此,由于语言的固有复杂性和情感的主观性质,这项任务仍然具有挑战性。对于立陶宛语等少研究和资源较少的语言来说,情况更加具有挑战性。我们对现有的立陶宛语NLP研究进行的回顾显示,传统的机器学习方法和分类算法在这项任务中的效果有限。在这项工作中,我们处理了来自多个领域的基于五星评级的立陶宛在线评论的情感分析,我们对其进行了收集和清洗。我们首次将Transformer模型应用于这一任务,探索了预训练的多语言大语言模型(LLMs)的能力,特别是着重于对BERT和T5模型进行微调。考虑到任务的固有困难性,经过微调的模型表现相当不错,特别是当情感本身不太模糊时:最受欢迎的一星和五星评论的测试识别准确率分别为80.74%和89.61%。它们明显优于当前商业最先进的通用大语言模型GPT-4。我们公开在线分享我们经过微调的LLMs。
论文链接: https://arxiv.org/abs/2407.19914
简明思考:输出长度对大语言模型推理和成本的影响
原标题: Concise Thoughts: Impact of Output Length on LLM Reasoning and Cost
作者: Sania Nayab, Giulio Rossolini, Giorgio Buttazzo, Nicolamaria Manes, Fabrizio Giacomelli
机构: 清华大学 威尼斯大学
摘要: 如今的大语言模型(LLMs)可以解决具有挑战性的问答任务,而诸如思维链(CoT)之类的工程技术引起了人们的关注,因为它们可以增强输出的解释性和正确性。然而,模型需要大量时间来生成附带冗长推理细节的答案。为了解决这个问题,本文分析了输出长度对LLM推理流程的影响,并提出了用于以“正确简洁”为标准评估它们的新型指标。它还通过一种精细的提示工程策略Constrained-CoT(CCoT)来控制输出长度的影响,鼓励模型限制输出长度。对预训练的LLMs进行的实验表明了所提出指标的好处以及CCoT在不同模型上的有效性。例如,将LLaMA2-70b的推理限制在100个单词内,将GSM8K数据集上的准确率从36.01%(CoT)提高到41.07%(CCoT),同时减少了平均输出长度28个单词。
论文链接: https://arxiv.org/abs/2407.19825
基于编码器的命名实体识别和大语言模型在提取俄罗斯职位空缺中技能的比较分析
原标题: Comparative Analysis of Encoder-Based NER and Large Language Models for Skill Extraction from Russian Job Vacancies
作者: Nikita Matkin, Aleksei Smirnov, Mikhail Usanin, Egor Ivanov, Kirill Sobyanin, Sofiia Paklina, Petr Parshakov
机构: 高等经济学院,彼尔姆,俄罗斯
摘要: 劳动力市场正在经历快速变化,对求职者提出了越来越高的要求,并出现了大量的工作机会。由于雇主要求的差异以及关键技能的遗漏,从工作描述中识别关键技能和能力是具有挑战性的。本研究通过比较基于编码器的传统命名实体识别(NER)方法和大语言模型(LLMs)从俄罗斯职位空缺中提取技能,以解决这些挑战。使用包括4,000个职位空缺用于训练和1,472个用于测试的标记数据集,评估了两种方法的性能。结果表明,传统的NER模型,尤其是经过调整的DeepPavlov RuBERT NER,在准确性、精确度、召回率和推理时间等各种指标上优于LLMs。研究结果表明,传统的NER模型为技能提取提供了更有效和高效的解决方案,增强了工作要求的清晰度,并帮助求职者与雇主期望对齐他们的资格。这项研究对自然语言处理(NLP)领域及其在劳动力市场中的应用做出了贡献,特别是在非英语环境中。
论文链接: https://arxiv.org/abs/2407.19816
ATHAR:用于古典阿拉伯语到英语翻译的高质量和多样化数据集
原标题: ATHAR: A High-Quality and Diverse Dataset for Classical Arabic to English Translation
作者: Mohammed Khalil, Mohammed Sabry
机构: 独立研究者 都柏林城市大学ADAPT中心ADAPT/DCU 爱尔兰
摘要: 古典阿拉伯语代表了一个重要的时代,涵盖了阿拉伯文化、哲学和科学文学的黄金时期。在广泛一致认为将这些文学作品翻译成其他语言以丰富知识传播跨社区的重要性的基础上,大语言模型(LLMs)和翻译系统的出现提供了有希望的工具来促进这一目标的实现。然而,我们发现古典阿拉伯语的翻译数据集稀缺,通常在范围和主题上受到限制,阻碍了高质量翻译系统的发展。因此,我们提出了ATHAR数据集,包括66,000个高质量的古典阿拉伯语到英语的翻译样本,涵盖了科学、文化和哲学等广泛领域。此外,我们评估了当前最先进的大语言模型在不同设置下的性能,得出结论称当前系统需要这样的数据集。我们的研究结果突显了模型如何可以从微调或将该数据集纳入其预训练流程中获益。该数据集可在HuggingFace Data Hub的\url{this https URL}上公开获取。
论文链接: https://arxiv.org/abs/2407.19835
其他链接: https://huggingface.co/datasets/mohamed-khalil/ATHAR
通过自我推理改进检索增强语言模型
原标题: Improving Retrieval Augmented Language Model with Self-Reasoning
作者: Yuan Xia, Jingbo Zhou, Zhenhui Shi, Jun Chen, Haifeng Huang
机构: 百度公司
摘要: 检索增强语言模型(RALM)通过在推理过程中整合外部知识,展现出在知识密集型任务上的显著性能,从而减轻了大语言模型(LLMs)中存在的事实幻觉。尽管取得了这些进展,RALMs 的实施仍然存在挑战,特别是与它们的可靠性和可追溯性有关的挑战。具体而言,不相关的文档检索可能导致无益的响应生成,甚至降低LLMs的性能,而在生成的输出中缺乏适当的引用会使验证模型的可信度变得复杂。为此,我们提出了一个旨在提高RALMs可靠性和可追溯性的新型自我推理框架,其核心思想是利用LLM本身生成的推理轨迹。该框架涉及三个过程的构建自我推理轨迹:一个关联感知过程,一个证据感知选择过程和一个轨迹分析过程。我们已经在四个公共数据集上评估了我们的框架(两个短格式问答数据集,一个长格式问答数据集和一个事实验证数据集),以展示我们方法的优越性,可以胜过现有的最先进模型,并且可以在仅使用2,000个训练样本的情况下实现与GPT-4可比的性能。
论文链接: https://arxiv.org/abs/2407.19813
在不丢失主题的情况下打开引号。
原标题: Segmentation en phrases : ouvrez les guillemets sans perdre le fil
作者: Sandrine Ollinger (ATILF), Denis Maurel
机构: ATILF Université de Lorraine CNRS Université de Tours Lifat
摘要: 这篇论文提出了一种用于XML文档句子分割的图级联方法。我们的提议为引号和连字符引入的情况提供了句子内部的句子,并特别关注由括号引入的插入语和由冒号引入的列表的情况。我们介绍了工具的工作原理,并将所获得的结果与2019年在相同数据集上可用的结果进行了比较,同时对系统在测试语料库上的性能进行了评估。
论文链接: https://arxiv.org/abs/2407.19808
在查理大学教授大语言模型:作业和活动
原标题: Teaching LLMs at Charles University: Assignments and Activities
作者: Jindřich Helcl, Zdeněk Kasner, Ondřej Dušek, Tomasz Limisiewicz, Dominik Macháček, Tomáš Musil, Jindřich Libovický
机构: 查理大学 维特科夫斯基数学物理学院 形式与应用语言学研究所
摘要: 这篇论文介绍了查理斯大学开设的一门关于大语言模型(LLMs)的新课程的教学材料,特别是作业和课堂活动的想法。作业包括使用LLM推理进行天气预报生成和机器翻译的实验。课堂活动包括课堂测验、针对下游任务和数据集的重点研究,以及一个旨在阅读和理解研究论文的互动“最佳论文”环节。
论文链接: https://arxiv.org/abs/2407.19798
VolDoGer:大语言模型辅助的数据集用于视觉-语言任务中的领域泛化
原标题: VolDoGer: LLM-assisted Datasets for Domain Generalization in Vision-Language Tasks
作者: Juhwan Choi, Junehyoung Kwon, JungMin Yun, Seunguk Yu, YoungBin Kim
机构: 中央大学
摘要: 领域泛化能力是深度学习模型的一个关键方面,因为它决定了模型在未知领域数据上表现良好的能力。然而,针对视觉-语言任务的深度学习模型的领域泛化能力的研究仍然有限,主要是因为缺乏所需的数据集。为了解决这些挑战,我们提出了VolDoGer:面向领域泛化的视觉-语言数据集,这是一个专门为领域泛化设计的数据集,涵盖了图像字幕、视觉问题回答和视觉蕴涵三个视觉-语言任务。我们通过将基于LLM的数据注释技术扩展到视觉-语言任务,构建了VolDoGer,从而减轻了招募人类注释者的负担。我们通过VolDoGer评估了各种模型的领域泛化能力,这些模型从微调模型到最近的多模态大语言模型都有涵盖。
论文链接: https://arxiv.org/abs/2407.19795
Cool-Fusion: 在不训练的情况下融合大语言模型
原标题: Cool-Fusion: Fuse Large Language Models without Training
作者: Cong Liu, Xiaojun Quan, Yan Pan, Liang Lin, Weigang Wu, Xu Chen
机构: 中山大学
摘要: 我们专注于融合两个或多个异构的大语言模型(LLMs)的问题,以促进它们互补的优势。模型融合面临的挑战之一是高计算负载,即通过组合优化来微调或对齐词汇。为此,我们提出了\emph{Cool-Fusion},这是一种简单而有效的方法,将异构源LLMs的知识融合起来,以利用它们的互补优势。\emph{Cool-Fusion}是第一种无需像集成方法那样进行任何类型训练的方法。但与集成方法不同的是,它适用于具有不同词汇的任何一组源LLMs。基本思想是让每个源LLM单独生成标记,直到这些标记可以解码为在所有源LLMs中共同的词边界结束的文本段。然后,源LLMs共同重新排列生成的文本段并选择最佳文本生成,这是一步完成的融合文本生成。我们在各种基准数据集上进行了大量实验。在\emph{GSM8K}上,\emph{Cool-Fusion}将准确性从三个强大的源LLMs提高了显著的8%-17.8%。
论文链接: https://arxiv.org/abs/2407.19807
合成科学摘要:一种提取和生成式方法
原标题: Synthesizing Scientific Summaries: An Extractive and Abstractive Approach
作者: Grishma Sharma, Aditi Paretkar, Deepak Sharma
摘要: 在任何研究领域都有大量研究论文可供使用,这就需要自动摘要系统来呈现所进行研究的关键内容及相应的发现。科学论文摘要是一项具有挑战性的任务,原因包括现代Transformer模型中的Token长度限制,以及长文本所需的内存和计算需求。在这一领域已经进行了大量工作,其中一些方法修改了现有Transformer模型的注意机制,另一些利用话语信息来捕捉研究论文中的长距离依赖关系。在本文中,我们提出了一种研究论文摘要的混合方法,结合了抽取式和生成式方法。我们使用抽取式方法来捕捉研究的关键发现,并将其与捕捉研究动机的论文引言相结合。我们在抽取阶段使用了两个基于无监督学习的模型和两个Transformer语言模型,从而形成了我们的混合方法的四种组合。我们评估了模型在三个指标上的表现,并在本文中呈现了我们的研究结果。我们发现,在使用某些超参数组合的情况下,自动摘要系统可以超越人类撰写的摘要的抽象性。最后,我们阐明了将这种方法扩展到总结泛化长文档的未来研究范围。
论文链接: https://arxiv.org/abs/2407.19779
为 RAG 引入一个新的超参数:上下文窗口利用率。
原标题: Introducing a new hyper-parameter for RAG: Context Window Utilization
作者: Kush Juvekar, Anupam Purwar
机构: 独立,印度
摘要: 这篇论文介绍了一种用于检索增强生成(RAG)系统的新超参数,称为上下文窗口利用率。RAG系统通过整合从外部知识库检索到的相关信息,提高了生成模型的准确性和上下文相关性,从而增强了生成的响应。检索和处理的文本块的大小是影响RAG性能的关键因素。该研究旨在确定最大化答案生成质量的最佳块大小。通过系统实验,我们分析了不同块大小对RAG框架效率和有效性的影响。我们的研究结果表明,最佳块大小在提供足够上下文和最小化无关信息之间取得了平衡。这些见解对于增强RAG系统的设计和实施至关重要,强调选择适当的块大小以实现卓越性能的重要性。
论文链接: https://arxiv.org/abs/2407.19794
在 DialAM-2024 中的 KNOWCOMP POKEMON 团队:用于检测对话式论证挖掘中关系的两阶段流水线
原标题: KNOWCOMP POKEMON Team at DialAM-2024: A Two-Stage Pipeline for Detecting Relations in Dialogical Argument Mining
作者: Zihao Zheng, Zhaowei Wang, Qing Zong, Yangqiu Song
机构: 哈尔滨工业大学(深圳) 香港科技大学
摘要: 对话式论证挖掘(DialAM)是论证挖掘(AM)的一个重要分支。DialAM-2024是一个关注对话式论证挖掘的共享任务,要求我们识别命题节点和言辞节点之间的论证关系和言辞关系。为了实现这一目标,我们提出了一个两阶段流水线,包括第一阶段的两步S-节点预测模型和第二阶段的YA-节点预测模型。我们还在两个阶段增加了训练数据,并在第二阶段引入了上下文。我们成功完成了任务并取得了良好的结果。我们的团队Pokemon在ARI Focused得分中排名第一,在全局Focused得分中排名第四。
论文链接: https://arxiv.org/abs/2407.19740
文本到可视化基准测试是否真正测试了可视化的实际使用?
原标题: Do Text-to-Vis Benchmarks Test Real Use of Visualisations?
作者: Hy Nguyen, Xuefei He, Andrew Reeson, Cecile Paris, Josiah Poon, Jonathan K. Kummerfeld
机构: 悉尼大学 CSIRO的Data612
摘要: 大语言模型能够根据用户请求生成可视化代码。这是一个有用的应用,对于自然语言处理研究也很有吸引力,因为数据图表为语言提供了基础。然而,现有的基准测试相对较少,目前尚不清楚这些基准测试是否代表了实际应用中的情况。本文旨在通过对比基准数据集和来自公共代码库的代码的实证研究来回答这个问题。我们的研究结果显示,在数据集中存在着实质性差距,评估并未测试相同分布的图表类型、属性和操作数量。唯一代表性的数据集需要修改才能成为端到端和实用的基准测试。这表明需要新的、更多的基准测试来支持真正满足用户可视化需求的系统的开发。这些观察结果将指导未来数据的创建,突出显示哪些特征对用户具有真正的重要性。
论文链接: https://arxiv.org/abs/2407.19726
CollectiveSFT:利用医疗保健领域的集体指导扩展中文医学基准的大语言模型
原标题: CollectiveSFT: Scaling Large Language Models for Chinese Medical Benchmark with Collective Instructions in Healthcare
作者: Jingwei Zhu, Minghuan Tan, Min Yang, Ruixue Li, Hamid Alinejad-Rokny
机构: 中国科学技术大学 软件工程学院 深圳高等技术研究院 中国科学院 澳大利亚新南威尔士大学
摘要: 大语言模型(LLMs)的快速发展促使了大量基准的创建,以评估它们的能力。这项研究专注于中文综合医学基准(CMB),展示了在监督微调(SFT)中数据集的多样性和分布如何提升LLM的性能。值得注意的是,我们成功地训练了一个较小的基础模型,使其得分与较大模型相媲美,表明一个多样化和分布良好的数据集可以优化性能,无论模型大小如何。这项研究表明,即使是较小的模型也可以通过精心策划和多样化的数据集达到高性能水平,集成了广泛的教学内容,我们的方法解决了数据质量不一致等潜在问题。我们的结果暗示,更广泛范围的训练数据可能增强模型在不同医学场景中泛化和有效执行的能力,突显了数据集质量和多样性在微调过程中的重要性。
论文链接: https://arxiv.org/abs/2407.19705
其他链接: http://datasets.By
法律思维,算法决策:LLM 如何在复杂情景中应用宪法原则
原标题: Legal Minds, Algorithmic Decisions: How LLMs Apply Constitutional Principles in Complex Scenarios
作者: Camilla Bignotti, Carolina Camassa
机构: 意大利银行
摘要: 在这篇论文中,我们对大语言模型(LLMs),特别是GPT-4,在复杂决策场景中如何解释宪法原则进行了实证分析。我们研究了涉及生物伦理问题的意大利宪法法院的裁决,这些问题涉及到竞争价值观之间的权衡,并将模型生成的法律论点与国家、法院和申请人提出的观点进行了比较。我们的结果表明,GPT-4与宪法的渐进解释更加一致,通常忽视竞争价值观,而更倾向于反映申请人的观点,而不是国家的更保守观点或法院的温和立场。我们的实验揭示了GPT-4倾向于支持渐进法律解释的明显倾向,突显了潜在数据偏见的影响。因此,我们强调在真实场景中测试对齐性的重要性,并考虑在决策过程中部署LLMs的影响。
论文链接: https://arxiv.org/abs/2407.19760
PerpectiveArg2024: 第一个共享任务“观点论证检索”概述
原标题: Overview of PerpectiveArg2024: The First Shared Task on Perspective Argument Retrieval
作者: Neele Falk, Andreas Waldis, Iryna Gurevych
机构: 斯图加特大学 德国
摘要: Argument retrieval是查找给定查询的相关论点的任务。虽然现有方法仅依赖于查询和论点的语义对齐,但这个关于观点论点检索的首个共享任务在检索过程中考虑了观点,考虑了论证中的潜在影响。我们提供了一个新颖的多语言数据集,涵盖了人口统计和社会文化(社会)变量,如年龄、性别和政治态度,代表了社会中的少数群体和多数群体。我们区分了三种场景,以探讨检索系统如何明确考虑(在查询和语料库中)和隐含考虑(仅在查询中)制定的观点。本文概述了这个共享任务,并总结了六个提交系统的结果。我们发现在整合观点主义方面存在重大挑战,特别是在仅基于论点文本而没有明确提供社会配置文件的情况下进行个性化。此外,检索系统倾向于偏向于多数群体,但在一定程度上减轻了对女性性别的偏见。虽然我们正在启动观点论点检索,但进一步研究对于优化检索系统以促进个性化并减少极化是至关重要的。
论文链接: https://arxiv.org/abs/2407.19670
SeaLLMs 3:面向东南亚语言的开放基础和多语言聊天大型语言模型
原标题: SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages
作者: Wenxuan Zhang, Hou Pong Chan, Yiran Zhao, Mahani Aljunied, Jianyu Wang, Chaoqun Liu, Yue Deng, Zhiqiang Hu, Weiwen Xu, Yew Ken Chia, Xin Li, Lidong Bing
机构: 达摩学院 阿里巴巴集团
摘要: 大语言模型(LLMs)在各种任务中展现出卓越的能力,但它们的发展主要集中在英语和中文等资源丰富的语言上,导致资源匮乏的语言发展滞后。为了解决这种不平衡,我们推出了SeaLLMs 3,这是SeaLLMs模型系列的最新版本,专为东南亚语言量身定制。这个地区以其丰富的语言多样性而闻名,但缺乏足够的语言技术支持。SeaLLMs 3旨在通过涵盖该地区使用的一系列语言,包括英语、中文、印尼语、越南语、泰语、塔加路语、马来语、缅甸语、高棉语、老挝语、泰米尔语和爪哇语,来弥合这一差距。SeaLLMs 3利用高效的语言增强技术和一个特别构建的指导调优数据集,显著降低了训练成本,同时保持高性能和多功能性。我们的模型在世界知识、数学推理、翻译和指令遵循等任务中表现出色,实现了与同等大小模型中最先进的性能。此外,我们优先考虑了安全性和可靠性,同时解决了一般性和文化特定的考虑,并采用机制减少了幻觉。这项工作强调了包容性人工智能的重要性,表明先进的LLM能力可以造福于资源匮乏的语言和文化社区。
论文链接: https://arxiv.org/abs/2407.19672
从预训练语料到大语言模型:哪些因素影响了大语言模型在因果发现任务中的表现?
原标题: From Pre-training Corpora to Large Language Models: What Factors Influence LLM Performance in Causal Discovery Tasks?
作者: Tao Feng, Lizhen Qu, Niket Tandon, Zhuang Li, Xiaoxi Kang, Gholamreza Haffari
机构: 莫纳什大学 Allen人工智能研究所
摘要: 最近人工智能领域的进展显示,大语言模型(LLMs)在因果发现任务中表现出显著的熟练度。这项研究探讨了影响LLMs在因果发现任务中表现的因素。利用开源LLMs,我们研究了预训练语料库中因果关系频率如何影响它们准确回答因果发现查询的能力。我们的研究结果显示,更高频率的因果提及与更好的模型表现相关,表明在训练过程中对因果信息的广泛暴露增强了模型的因果发现能力。此外,我们调查了上下文对因果关系有效性的影响。我们的结果表明,当在不同上下文中呈现相同的因果关系时,LLMs可能会展示出不同的预测。本文首次全面分析了不同因素如何影响LLMs在因果发现任务中的表现。
论文链接: https://arxiv.org/abs/2407.19638
mGTE:通用长上下文文本表示和重新排序模型,用于多语言文本检索
原标题: mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval
作者: Xin Zhang, Yanzhao Zhang, Dingkun Long, Wen Xie, Ziqi Dai, Jialong Tang, Huan Lin, Baosong Yang, Pengjun Xie, Fei Huang, Meishan Zhang, Wenjie Li, Min Zhang
机构: 阿里巴巴集团 香港理工大学
摘要: 我们提出了系统性的工作,从零开始构建了用于文本检索的长上下文多语言文本表示模型(TRM)和重新排序器。我们首先介绍了一个文本编码器(基础大小),增强了RoPE和去填充,在本机8192个标记上进行了预训练(比以前的多语言编码器的512个标记更长)。然后,我们通过对比学习构建了一个混合TRM和一个交叉编码器重新排序器。评估结果显示,我们的文本编码器优于同等大小的先前最先进的XLM-R。与此同时,我们的TRM和重新排序器与最先进的大型BGE-M3模型的性能相匹配,并在长上下文检索基准上取得了更好的结果。进一步的分析表明,我们提出的模型在训练和推断过程中表现出更高的效率。我们相信它们的效率和有效性可以使各种研究和工业应用受益。
论文链接: https://arxiv.org/abs/2407.19669
LoginMEA:用于多模态实体对齐的局部到全局交互网络
原标题: LoginMEA: Local-to-Global Interaction Network for Multi-modal Entity Alignment
作者: Taoyu Su, Xinghua Zhang, Jiawei Sheng, Zhenyu Zhang, Tingwen Liu
机构: 中国科学院信息工程研究所 中国科学院大学网络空间安全学院 百度公司
摘要: 多模态实体对齐(MMEA)旨在识别两个多模态知识图谱(MMKGs)之间的等价实体,这些实体可以与关系三元组和相关图像关联。大多数先前的研究将图结构视为一种特殊的模态,并使用单独的单模态编码器融合不同的模态信息,忽略了模态中有价值的关系关联。其他研究通过图结构优化每个单模态信息,但可能会在特定模态中引入不必要的关系。为此,我们提出了一种新颖的用于MMEA的局部到全局交互网络,称为LoginMEA。特别地,我们首先融合局部多模态交互以生成整体实体语义,然后利用实体邻居的全局关系交互来优化它们。在这种设计中,单模态信息被自适应地融合,并可以根据关系进行优化。为了丰富多模态实体信息的局部交互,我们设计了模态权重和低秩交互融合,允许在模态之间产生多样的影响和元素级的交互。为了捕获图结构的全局交互,我们采用了关系反射图注意力网络,充分捕获实体之间的关系关联。大量实验证明了我们的方法在5个跨知识图谱或双语基准数据集上优于其他方法的结果,表明了捕获局部和全局交互的有效性。
论文链接: https://arxiv.org/abs/2407.19625
在会话式搜索中,将查询表示与重写查询和相关性判断对齐
原标题: Aligning Query Representation with Rewritten Query and Relevance Judgments in Conversational Search
作者: Fengran Mo, Chen Qu, Kelong Mao, Yihong Wu, Zhan Su, Kaiyu Huang, Jian-Yun Nie
机构: 蒙特利尔大学 马萨诸塞大学阿默斯特分校 中国人民大学 哥本哈根大学 北京交通大学
摘要: 会话式搜索支持多轮用户系统交互,以解决复杂的信息需求。与传统的单轮即席搜索不同,会话式搜索遇到了一个更具挑战性的问题,即依赖上下文的查询理解,其中包括冗长和长尾的会话历史上下文。虽然会话式查询重写方法利用显式重写查询来训练一个重写模型,将依赖上下文的查询转换为一个基础搜索查询,但通常不考虑搜索结果的质量。会话式密集检索方法使用微调来改进预训练的即席查询编码器,但受到用于训练的会话式搜索数据的限制。在本文中,我们利用会话式搜索数据中的重写查询和相关性判断来训练一个更好的查询表示模型。关键思想是将查询表示与重写查询和相关文档的表示对齐。所提出的模型——查询表示对齐会话式密集检索器(QRACDR)在包括会话式搜索和即席搜索中的各种设置在内的八个数据集上进行了测试。结果表明,与最先进的方法相比,QRACDR表现出强大的性能,并确认了表示对齐的有效性。
论文链接: https://arxiv.org/abs/2407.20189
BEExAI:用于评估可解释人工智能的基准。
原标题: BEExAI: Benchmark to Evaluate Explainable AI
作者: Samuel Sithakoul, Sara Meftah, Clément Feutry
机构: Groupe Square Management CentraleSupélec
摘要: 最近在可解释性方面的研究催生了许多旨在增强我们对黑盒机器学习模型输出理解的事后归因方法。然而,评估解释质量缺乏一致的方法和关于推导量化指标以衡量解释性事后归因方法效果的方法论共识。此外,随着针对多样数据应用开发越来越复杂的深度学习模型,衡量解释质量和正确性的可靠方法的需求变得至关重要。我们通过提出 BEExAI 来解决这一问题,这是一个基准工具,允许大规模比较不同事后可解释性(XAI)方法,采用一组精选的评估指标。
论文链接: https://arxiv.org/abs/2407.19897
AutoScale:自动预测训练大语言模型的计算最优数据组合
原标题: AutoScale: Automatic Prediction of Compute-optimal Data Composition for Training LLMs
作者: Feiyang Kang, Yifan Sun, Bingbing Wen, Si Chen, Dawn Song, Rafid Mahmood, Ruoxi Jia
机构: 弗吉尼亚理工大学 UIUC 华盛顿大学 加利福尼亚大学伯克利分校 渥太华大学 NVIDIA
摘要: 为了确保在各种不同的下游任务中表现良好,大语言模型通过在不同领域的数据混合进行预训练。在这项工作中,我们展示了对于固定计算预算,最佳数据组合取决于训练数据的规模,这表明通过小规模实验来经验性确定最佳组合的常见做法在扩大到最终模型时不会产生最佳数据混合。为了解决这一挑战,我们提出了一种名为AutoScale的自动化工具,该工具可以找到在任何目标规模下进行训练的计算最优数据组合。AutoScale首先利用一种新颖的双层优化框架Direct Data Optimization(DDO)在小规模上确定最佳组合,然后拟合一个预测器来估计更大规模下的最佳组合。预测器的设计灵感来自于我们对与数据组合相关的缩放定律的理论分析,这可能具有独立的研究意义。在对RedPajama数据集上774M Decoder-only大型语言模型(GPT-2 Large)进行预训练的实证研究中,AutoScale比任何基准线快至少25%地降低了验证困惑度,相比不重新加权,加快了高达38%的速度,实现了在各个下游任务中的最佳性能。在对仅编码器的语言模型(BERT)进行掩码语言建模的预训练中,DDO显示出在所有领域上降低损失,同时在GLUE基准测试中平均任务性能提高了8.7%,在大规模问答数据集(SQuAD)上提高了5.9%,相比不重新加权。AutoScale可以加快训练速度高达28%。我们的代码是开源的。
论文链接: https://arxiv.org/abs/2407.20177
模型不可知的混合分片用于异构分布式推理
原标题: Model Agnostic Hybrid Sharding For Heterogeneous Distributed Inference
作者: Claudio Angione, Yue Zhao, Harry Yang, Ahmad Farhan, Fielding Johnston, James Buban, Patrick Colangelo
机构: Nesa Research
摘要: 大规模 AI 模型的快速增长,特别是大型语言模型,给数据隐私、计算资源和可访问性带来了重大挑战。传统的集中式架构经常难以满足所需的数据安全性和可扩展性需求,这阻碍了 AI 系统的民主化。Nesa 提出了一个面向去中心化 AI 推断的模型无关分片框架。我们的框架使用基于区块链的顺序深度神经网络分片,根据个性化启发式和路由机制在各种节点的网络上分发计算任务。这使得即使在消费级硬件上,最近的大规模模型也能进行高效的分布式训练和推断。我们使用压缩技术,如动态分块量化和混合矩阵分解,以减少数据传输和内存需求。我们还整合了强大的安全措施,包括基于硬件的可信执行环境,以确保数据的完整性和保密性。通过在各种自然语言处理和视觉任务上评估我们的系统,结果表明这些压缩策略不会影响模型的准确性。我们的研究结果突显了通过在去中心化网络上实现安全高效的推断,从而实现对尖端 AI 技术的民主化访问的潜力。
论文链接: https://arxiv.org/abs/2407.19775
ML-Mamba:利用Mamba-2的高效多模态大语言模型
原标题: ML-Mamba: Efficient Multi-Modal Large Language Model Utilizing Mamba-2
作者: Wenjun Huang, Jianguo Hu
机构: 中山大学
摘要: 多模态大语言模型(MLLMs)因其多功能性而受到广泛关注。然而,传统的Transformer架构由于其辅助计算复杂性而产生了显着的开销。为了解决这个问题,我们引入了ML-Mamba,这是一个利用最新高效的Mamba-2模型进行推理的多模态语言模型。Mamba-2以其线性扩展和快速处理长序列而闻名。我们用一个预训练的Mamba-2模型替换了基于Transformer的骨干,并探索了将2D视觉选择性扫描机制整合到多模态学习中的方法。我们还尝试了各种视觉编码器和Mamba-2模型变体。我们在各种多模态基准测试中进行的大量实验表明了ML-Mamba的竞争性能,并突显了状态空间模型在多模态任务中的潜力。实验结果显示:(1)通过其线性顺序建模,ML-Mamba在推理速度更快的同时实现了与TinyLaVA和MobileVLM v2等最先进方法可比的性能;(2)ML-Mamba在封闭集基准测试中在视觉幻觉和空间关系判断方面表现良好;(3)ML-Mamba在减少参数数量40%的同时实现了与LLaVA可比的性能;(4)与使用原始Mamba模型的多模态模型相比,基于Mamba-2的大规模多模态语言模型具有更强的推理性能和有效性。
论文链接: https://arxiv.org/abs/2407.19832
主题标记:使用思维链和LLM的提示调整自动注释NMF主题模型
原标题: TopicTag: Automatic Annotation of NMF Topic Models Using Chain of Thought and Prompt Tuning with LLMs
作者: Selma Wanna, Ryan Barron, Nick Solovyev, Maksim E. Eren, Manish Bhattarai, Kim Rasmussen, Boian S. Alexandrov
机构: 洛斯阿拉莫斯国家实验室
摘要: 主题建模是一种从大量非结构化文本中组织和提取主题的技术。非负矩阵分解(NMF)是一种常见的无监督方法,它将词项频率-逆文档频率(TF-IDF)矩阵分解,以揭示潜在主题并相应地对数据集进行分段。虽然NMF对于突出模式和聚类文档很有用,但它并不提供明确的主题标签,需要主题专家手动分配标签。我们提出了一种方法,通过自动模型确定(NMFk)在NMF中自动标记主题,利用NMFk的输出并采用提示工程,利用大语言模型(LLMs)生成准确的主题标签。我们在超过34,000篇关于知识图的科学摘要上的案例研究展示了我们的方法在增强知识管理和文档组织方面的有效性。
论文链接: https://arxiv.org/abs/2407.19616
通过机械解释性检测和理解语言模型中的漏洞
原标题: Detecting and Understanding Vulnerabilities in Language Models via Mechanistic Interpretability
作者: Jorge García-Carrasco, Alejandro Maté, Juan Trujillo
机构: Lucentia Research University of Alicante
摘要: 大语言模型(LLMs)以在自监督方式下训练的大量数据为特征,已经展现出在广泛任务上的出色表现。事实上,它们的生成能力引起了人们对在各种情境中应用LLMs的兴趣。然而,神经网络总体上,尤其是LLMs,被认为容易受到对抗性攻击的影响,即对输入进行微不可见的改变就可能误导模型的输出。这是一个严重的问题,阻碍了在高风险应用中使用LLMs,比如医疗保健领域,错误的预测可能导致严重后果。尽管有许多努力使LLMs更加抗对抗攻击,但几乎没有研究关于LLMs容易受到对抗攻击的漏洞是如何以及在哪里发生的。受到这些事实的启发,我们探讨了如何定位和理解漏洞,并提出了一种基于机制可解释性(MI)技术的方法来引导这一过程。具体而言,该方法使我们能够通过(i)获取负责该任务的模型子集,(ii)为该任务生成对抗样本,以及(iii)利用MI技术和先前的样本来发现和理解可能的漏洞,从而检测与具体任务相关的漏洞。我们在一个预训练的GPT-2 Small模型上展示了我们的方法,该模型执行预测3个字母缩写的任务,以展示其在定位和理解模型具体漏洞方面的有效性。
论文链接: https://arxiv.org/abs/2407.19842
高效而有效:一种平衡明文和加密文本以进行流量分类的两阶段方法
原标题: Efficiently and Effectively: A Two-stage Approach to Balance Plaintext and Encrypted Text for Traffic Classification
作者: Wei Peng
机构: 北京大学
摘要: 加密流量分类是识别与加密网络流量相关的应用程序或服务的任务。对于这一任务的一个有效方法是使用深度学习方法直接对原始流量字节进行编码,并自动提取特征进行分类(基于字节的模型)。然而,当前基于字节的模型输入原始流量字节,无论是明文还是加密文本,进行自动特征提取,忽略了明文和加密文本对下游任务的不同影响。此外,这些模型主要关注提高分类准确性,对模型的效率关注较少。在本文中,我们首次分析了明文和加密文本对模型效果和效率的影响。基于我们的观察和发现,我们提出了一种两阶段方法来平衡流量分类中明文和加密文本之间的权衡。具体而言,第一阶段是使用提出的DPC选择器确定明文是否足以准确分类(DPC)。这一阶段快速识别可以使用明文分类的样本,利用明文中的显式字节特征来增强模型的效率。第二阶段旨在根据第一阶段的结果自适应地进行分类。这一阶段结合了加密文本信息,用于那些仅使用明文无法分类的样本,确保模型在流量分类任务上的有效性。在两个数据集上的实验证明,我们提出的模型在有效性和效率方面均取得了最先进的结果。
论文链接: https://arxiv.org/abs/2407.19687