文章目录
在找论文时,发现的相关概念。
1. 知识蒸馏
知识蒸馏(knowledge distillation)是模型压缩的一种常用的方法,不同于模型压缩中的剪枝和量化,知识蒸馏是通过构建一个轻量化的小模型,利用性能更好的大模型的监督信息,来训练这个小模型,以期达到更好的性能和精度。最早是由Hinton在2015年首次提出并应用在分类任务上面,这个大模型我们称之为teacher(教师模型),小模型我们称之为Student(学生模型)。来自Teacher模型输出的监督信息称之为knowledge(知识),而student学习迁移来自teacher的监督信息的过程称之为Distillation(蒸馏)。
2. 可微搜索索引(DSI)
DSI主要有两个部分,分别是
(1)索引(Indexing)—给定文件,输出文件的docid
(2)检索(Retrieval)—根据给定的查询x,输出docid整体流程如下
query -》docid 《- documents
查询到docid称为检索,documents到docid称为索引
3. 倒排索引与 bm25 的关系
倒排索引(Inverted Index):是一种数据结构,用于快速查找包含特定词语的文档。它将文档中的每个词语映射到包含该词语的文档列表,从而实现了从词语到文档的快速检索。
稀疏检索BM25(Best Matching 25):是一种用于评估文档与查询之间匹配程度的算法。它考虑了查询项在文档中的出现频率、文档长度等因素,通过对文档的评分来进行文档排序,以便于检索出与用户查询最相关的文档。
两者关系
BM25通常用于基于倒排索引的搜索引擎中。当用户输入查询时,搜索引擎首先使用倒排索引找到包含查询项的文档集合,然后通过BM25算法对这些文档进行排序,最终呈现给用户最相关的文档结果。倒排索引提供了基础数据结构,用于快速定位包含查询词语的文档,而BM25则通过计算文档与查询的相关性,进一步提高了搜索结果的质量。因此,倒排索引和稀疏检索BM25是信息检索系统中密不可分的两个组成部分,共同构成了现代搜索引擎的核心技术。
4. 课程学习(Curriculum Learning)
课程学习 (Curriculum learning, CL) 是近几年逐渐热门的一个前沿方向。Bengio [1] 首先提出了课程学习(Curriculum learning,CL)的概念,它是一种训练策略,模仿人类的学习过程,主张让模型先从容易的样本开始学习,并逐渐进阶到复杂的样本和知识。
5. 词袋模型(BOW)
词袋模型(Bag-of-Words model,BOW)BoW(Bag of Words)词袋模型最初被用在文本分类中,将文档表示成特征矢量。它的基本思想是假定对于一个文本,忽略其词序和语法、句法,仅仅将其看做是一些词汇的集合,而文本中的每个词汇都是独立的。
6. RAG(retrieval augmented generation,检索增强生成)
i.e. 检索器 + 生成式阅读器
7. span corruption objective
“span corruption objective” 指的是一种目标函数,用于训练模型以处理跨度(span)级别的噪声或损坏(corruption)。在这种目标函数中,模型被要求预测或修复输入序列中被人为损坏或随机破坏的跨度或片段。
例如,假设我们有一段文本,其中的某些词语或短语被删除或替换为噪声。通过使用跨度损坏目标函数,模型被训练去预测这些被损坏的跨度,并且尽可能地还原原始文本。这种训练方法有助于模型学习如何理解文本中的语义信息,并且能够在存在噪声或损坏的情况下进行有效的处理。
参考资料
【1】知识蒸馏:https://zhuanlan.zhihu.com/p/258390817
【2】DSI:https://zhuanlan.zhihu.com/p/665924073
【3】倒排索引和bm25:gpt 回答(prompt:倒排索引和稀疏检索bm25有什么关系)
【4】课程学习:https://zhuanlan.zhihu.com/p/362351969
【5】词袋模型:https://blog.csdn.net/Elenstone/article/details/105134863
【6】检索增强生成:https://www.elastic.co/cn/what-is/retrieval-augmented-generation#how-does-retrieval-augmented-generation-work
【7】span corruption objective:gpt 回答