智能知识问答-文本分割器

最新推荐文章于 2024-11-03 22:14:01 发布

九品神元师

最新推荐文章于 2024-11-03 22:14:01 发布

阅读量338

点赞数 6

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yimin_tank/article/details/140619596

版权

文本分割器是知识检索中一个重要组件，海量的文档需要基于文本分割策略进行处理从而与大模型的各个功能模块进行交互。

文本分割器的目的

大模型在预训练阶段获取的知识是有限的，一般需要数据增强模块引入外部知识库，通过知识检索的方式搜索与用户提问相关的知识，而外部知识文档往往比较长，可能是包含几十页甚至几百页的内容，如果直接使用会存在以下问题：

大模型处理的上下文长度有限：大模型在预训练过程都有上下文长度限制，如果超过长度限制大模型会将超出部分丢弃，从而影响回答的性能表现。
语义杂揉不利于任务检索：长文档中各个片段的语义之前可能存在较大的差异，如果当成一个整体来做知识检索会存在语义的杂揉，应当将长文档切分成更多的小块，促使每个小块内部表意一致，块之间表意存在多样性，从而更充分的发挥知识检索的作用。

因此需要引入文本分割器，它根据一定策略将文本切分为各个小块，以便适应大模型的上下文窗口，同时提高知识检索的精度。

九品神元师

关注

6
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

九品神元师 CSDN认证博客专家 CSDN认证企业博客

码龄9年

169: 原创

23万+: 周排名

1万+: 总排名

32万+: 访问

: 等级

4355: 积分

386: 粉丝

338: 获赞

64: 评论

313: 收藏

私信

关注

热门文章

分类专栏

最新评论

Paddle使用问题No module named ‘paddle.fluid’
wyx6666: 请问楼主，执行pip install paddlepaddle==2.4.0 -i https://pypi.org/simple时显示ERROR: Could not find a version that satisfies the requirement paddlepaddle==2.4.0 (from versions: 2.6.0, 2.6.1, 2.6.2, 3.0.0b0) ERROR: No matching distribution found for paddlepaddle==2.4.0 怎么办
Kafka命令
小王毕业啦: 博主的这篇关于“Kafka命令-CSDN博客”的文章真是让我眼前一亮，内容充实且具有很高的参考价值。博主对于这个主题的深入探讨让我对Kafka命令有了全新的认识，每一个细节描写都十分到位，让我感受到博主的深厚功底和丰富经验。期待博主未来能够继续分享更多这样高质量的好文，同时也希望能够得到博主的指导，共同进步。非常感谢博主的分享和支持！
Kafka命令
普通网友: 博主的文章让我对这个主题有了全新的认识，细节描写非常到位，让我感受到了博主的深厚功底。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Paddle使用问题No module named ‘paddle.fluid’
qq_24685969: 2.4.2可以吗
飞桨PaddlePaddle安装
angry猫: {"code":"NoSuchKey","message":"The specified key does not exist.","requestId":"172b45ab-e873-4b5d-a045-4a5f6c2a9ac1"}

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。