论文分享|AAAI2024‘北航|用大语言模型缩小有监督和无监督句子表示学习的差距

BrownSearch

于 2024-07-16 07:48:03 发布

阅读量1k

点赞数 29

分类专栏： NLP/IR知识分享文章标签：语言模型人工智能 nlp 自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45783724/article/details/140455016

版权

先说结论，大语言模型除了作为聊天的Agent，也可以为检索模型生成优质的文本对训练数据，从而做到无监督场景下也能够适用。这里分享一篇AAAI2024的工作，重点探讨如何生成比评估集更困难的训练数据来提升无监督句子表示学习质量，应该对很多表示学习工作都有一定启发

论文题目：Narrowing the Gap between Supervised and Unsupervised Sentence Representation Learning with Large Language Model

来源：AAAI2024/实验室师兄/北航

方向：文本表示学习

开源地址：https://github.com/BDBC-KG-NLP/NGCSE

摘要

句子表示学习（SRL）是自然语言处理（NLP）中的一项基本任务，句子编码对比学习（CSE）因其优越的性能而成为主流技术。CSE中一个有趣的现象是有监督方法和无监督方法之间的显著性能差异，它们唯一的区别在于训练数据。以前的工作将这种性能差距归因于对齐和均匀性的差异。然而，由于对齐和均匀性只衡量结果，他们没有回答“训练数据的什么方面导致了性能差距？”以及“如何才能缩小性能差距？”。

本文进行了实验来回答这两个问题。首先通过彻底比较监督和无监督CSE在各自训练过程中的行为来

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。