智能知识问答-文本分割器

文本分割器是知识检索中一个重要组件,海量的文档需要基于文本分割策略进行处理从而与大模型的各个功能模块进行交互。

文本分割器的目的

大模型在预训练阶段获取的知识是有限的,一般需要数据增强模块引入外部知识库,通过知识检索的方式搜索与用户提问相关的知识,而外部知识文档往往比较长,可能是包含几十页甚至几百页的内容,如果直接使用会存在以下问题:

  1. 大模型处理的上下文长度有限:大模型在预训练过程都有上下文长度限制,如果超过长度限制大模型会将超出部分丢弃,从而影响回答的性能表现。
  2. 语义杂揉不利于任务检索:长文档中各个片段的语义之前可能存在较大的差异,如果当成一个整体来做知识检索会存在语义的杂揉,应当将长文档切分成更多的小块,促使每个小块内部表意一致,块之间表意存在多样性,从而更充分的发挥知识检索的作用。

因此需要引入文本分割器,它根据一定策略将文本切分为各个小块,以便适应大模型的上下文窗口,同时提高知识检索的精度。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值