2024 惊爆！RSL-SQL 框架颠覆NL2SQL领域，准确率惊人

最新推荐文章于 2025-03-20 19:02:58 发布

Python编程杰哥

最新推荐文章于 2025-03-20 19:02:58 发布

阅读量2k

点赞数 31

文章标签： sql 数据库大数据架构单例模式团队开发人工智能

本文链接：https://blog.csdn.net/xx_nm98/article/details/144619882

版权

在人工智能的文本到 SQL 生成领域RSL-SQL框架脱颖而出。它针对模式链接存在的风险，创新地结合双向模式链接、上下文信息增强、二元选择策略与多轮自校正。在BIRD和Spider基准测试中，展现出卓越性能，使用GPT-4o时，BIRD上执行准确率达67.2%，Spider上达87.9%，且成本效益佳。通过消融研究证实各组件有效性，其代码已开源。该框架不仅提升了文本到 SQL 生成的准确性和效率，还为相关研究提供了新方向，推动了该领域发展。

摘要

文本到 SQL 生成旨在将自然语言问题转换为 SQL 语句。在基于大语言模型的文本到 SQL 中，模式链接是一种广泛采用的策略，通过仅选择相关的模式元素来简化大语言模型的输入，从而减少噪声和计算开销。然而，模式链接面临需要谨慎对待的风险，包括可能遗漏必要元素和破坏数据库结构完整性。为应对这些挑战，本文提出一种名为 RSL-SQL 的新颖框架，它结合了双向模式链接、上下文信息增强、二元选择策略和多轮自校正。使用正向和反向剪枝方法提高模式链接的召回率，在严格召回率达到 94% 的同时将输入列数减少 83%。此外，通过在完整模式和通过上下文信息增强的简化模式之间进行投票来对冲风险。在 BIRD 和 Spider 基准上的实验表明，该方法在开源解决方案中实现了 SOTA 执行准确率，在 BIRD 上达到67.2%，在 Spider 上使用 GPT-4o 达到 87.9%。此外，在采用 DeepSeek （成本更低）且提示完整的情况下，该方法优于一系列基于 GPT-4 的文本到 SQL 系统。广泛的分析和消融研究证实了框架中每个组件的有效性。

01.引言

1.1 研究背景

将自然语言问题翻译成结构化查询语言（SQL）的任务，即文本到 SQL 或 Text2SQL 生成，对于使非专家用户能够与关系数据库交互至关重要。通过弥合自然语言和结构化查询语言之间的差距，文本到 SQL 系统使数据访问民主化，使用户无需深厚的技术知识即可提取有价值的见解。近年来，利用大语言模型（LLMs）强大的理解和生成能力完成文本到 SQL 任务已成为提升性能的主要方法，提示工程成为主流技术策略。

1.2 模式链接的问题

数据库的细粒度描述存在挑战。通常，数据库尤其是大规模工业数据库有数百或数千个字段。在提示中包含完整的数据库特征会导致输入令牌过多、计算成本增加，更关键的是会引入大量噪声。由于用户查询通常仅涉及一小部分数据库模式元素，大量不相关的模式信息会使大语言模型混淆并降低性能。为缓解此问题，模式链接技术被广泛用于识别并在提示中仅包含相关的模式元素。然而，模式链接既带来机会也带来风险。一方面，修剪不相关的模式元素可以降低输入复杂性，使大语言模型的注意力集中在相关信息上，这可能会提高 SQ L生成的准确性。另一方面，在简化过程中，原始问题中重要但不立即明显的某些表或列可能会被忽略，导致生成的 SQL 中缺少必要信息。

1.3 本文贡献

为增强模式链接的益处并减轻其风险，本文提出 RSL-SQL ，这是一种基于稳健模式链接的文本到 SQL 生成框架。该方法旨在最大化模式链接的正收益并最小化其负面影响。通过双向模式链接生成初步 SQL，利用上下文信息增强来提高正收益，采用二元选择策略减少负面影响，最后使用多轮自校正迭代优化错误的 SQL 语句。实验表明， RSL-SQL 在 BIRD 和 Spider 数据集上取得了优异的性能，执行准确率高且成本效益良好，同时消融研究证实了框架中每个组件的有效性。

02.相关工作

早期的文本到 SQL 任务研究主要依赖于手工设计的模板，但这些方法在复杂场景中表现受限且难以扩展。随着 Transformer 模型的广泛应用，文本到SQL研究取得了显著进展，例如 IRNet 和 RAT- SQL 采用关系感知注意力机制将数据库模式信息与 SQL 生成过程紧密集成。在大语言模型被广泛证明在自然语言处理任务中强大之后，越来越多的研究探索其在文本到 SQL 任务中的潜力，如 QDecomp、C3、QDMR 和 DIN- SQL 等方法引入任务分解和推理策略以逐步提高SQL 生成性能。

模式链接是文本到 SQL 任务中的关键步骤，旨在识别与自然语言查询相关的数据库表和列。一些模型如 RAT- SQL 、 SchemaGNN 和 ShadowGNN 采用关系感知自注意力机制来增强模式信息的整合， SADGA引入了一种新颖的双图框架来交互式编码和聚合自然语言问题与数据库模式的结构信息。随着大语言模型在自然语言处理任务中的出色表现，许多研究尝试将其应用于模式链接任务，例如 CHESS通过从数据库目录和数据库值中检索相关信息来实现更准确的模式链接， MCS-SQL 则依靠使用多个提示并从大语言模型中采样多个响应，利用大语言模型的大样本库来筛选不相关的表和列以减少错误匹配的可能性。本文使用双向模式链接方法深入挖掘数据库提供的外部知识，并分析初始SQL语句与回答用户问题所需元素之间的关系。

03.方法

RSL-SQL 框架由四个关键组件组成：双向模式链接、上下文信息增强、二元选择策略和多轮自校正。框架首先通过双向模式链接尽可能全面地召回所有必要的数据库元素以实现高召回率，接着上下文信息增强进一步提高模式链接的正收益，然后二元选择策略用于最大化模式链接的正收益并减少负面影响，最后多轮自校正迭代优化错误的SQL。

3.1 提示工程

利用大语言模型进行文本到 SQL 任务需要仔细考虑提示工程，以影响对不同数据库的可移植性和生成 SQL 查询的准确性。本文考虑以下关键输入元素：用户问题、数据库模式、值样本、模式描述和少量示例。用户问题是 SQL 翻译的主要输入，数据库模式提供数据库结构信息，值样本帮助大语言模型理解列的潜在值和语义，模式描述为所有表和列提供额外语义上下文，少量示例用于帮助大语言模型更好地理解任务。这些元素在大语言模型的提示中组织，为生成准确的 SQL 查询提供必要信息。

3.2 双向模式链接（BSL）

3.2.1 正向模式链接（FSL）

旨在从完整数据库模式中直接识别潜在相关的模式元素。输入完整模式、值样本和用户问题，使用大语言模型识别并格式化相关表和列。若有额外上下文，通过遍历所有列名并包含在上下文中出现的列名来扩充列表，得到一组表和列表示为。

3.2.2 初步SQL生成

使用完整模式生成初步 SQL 查询，输入组件包括完整模式、值样本、少量示例、用户问题、额外上下文和正向模式链接的结果。此步骤在完整数据库模式下生成初步 SQL，确保数据库结构的完整性，并通过纳入正向模式链接结果略微提高准确性。

3.2.3 反向模式链接（BSL）

与正向模式链接互补，解析初步 SQL 查询以提取另一组引用的表和列。对于数据库中每个元素，若列名在生成的初步SQL 中使用，则相应召回。此步骤至关重要，若正确，应包含所有必要元素。最终选择使用列名精确匹配方法实现反向模式链接，尽管会召回一些冗余列，但可降低基于简化模式生成 SQL 的错误概率。

3.2.4 模式简化

合并正向和反向模式链接的结果，得到更完整的表和列子集，简化数据库模式、值样本和模式描述，得到精简后的版本，显著减少与用户问题无关的冗余数据库信息，缩短所需输入长度，减少后续SQL生成的决策空间，同时保持对必要模式元素的高召回率。

3.3 上下文信息增强（CIA）

3.3.1 SQL组件生成

输入用户查询、简化模式、值样本、列描述和可选上下文，预生成 SQL 生成所需的每个组件，包括可能在 SQL 查询中需要的表和列列表（与正向模式链接相同）、WHERE 子句的可能条件和约束以及可能相关的 SQL 关键字。定义简化模式描述以及大语言模型生成的为上下文增强信息，以帮助大语言模型更好地理解简化数据库模式和目标 SQL 语句。

3.3.2 基于简化模式的SQL生成

根据简化模式生成另一个SQL查询，提示大语言模型的输入包括简化模式、值样本、上下文增强信息、少量示例、用户问题和可选问题上下文。此过程通过利用上下文增强信息，使大语言模型能更好地理解数据库和用户需求，从而提高 SQL 生成的准确性。

3.4 二元选择策略（BSS）

此策略是减轻模式链接风险的重要步骤。完整模式保留完整数据库结构但有冗余信息，简化模式去除大量冗余信息但有信息丢失风险。使用大语言模型比较两个独立生成的SQL

并选择最佳的一个，可视为一种风险对冲。执行，产生结果用于正确性评估，大语言模型分析并选择最优查询，确保与用户问题的语义对齐。

3.5 多轮自校正（MTSC）

查询无法执行或执行结果为空被视为不正确。应用规则识别高错误概率的查询以进行迭代优化。若仍包含语法错误或产生空结果，捕获并记录此结果，然后提供用户问题、上下文、简化模式、值样本、示例、查询（初始化为）和错误信息给大语言模型，大语言模型生成新的 SQL 语句并执行。若错误或空结果仍然存在，继续对话告知大语言模型 SQL 错误，迭代直到达到最大对话轮数或

执行成功无语法错误、返回非空结果。

04.实验

4.1 数据集

4.1.1 BIRD 数据集

BIRD 数据集是大规模、跨领域的文本到 SQL 数据集，强调处理数据库值，突出了脏外部知识库、嘈杂数据库值和 SQL 查询效率（特别是在大规模数据库环境中）带来的挑战，其中的 SQL 查询通常比 Spider 数据集中的更复杂。

4.1.2 Spider 数据集

Spider 数据集是大规模、跨领域的文本到 SQL 任务数据集，不仅包含复杂 SQL 查询，还涵盖多表数据库，是测试模型泛化能力的重要资源。

4.1.3 子采样开发集（SDS）

为便于消融研究、降低计算成本并保留 BIRD 开发集的分布，采用 CHESS 中概述的子采样开发集，它包含 BIRD 开发集中每个数据库的10%。

4.2 评估指标

4.2.1 执行准确率（EX）

定义为预测的 SQL 查询输出与真实 SQL 查询完全匹配的查询比例，以评估集中查询的百分比报告执行准确率。

4.2.2 有效效率得分（VES）

衡量模型生成的有效 SQL 查询的效率，“有效 SQL 查询”是指其结果集与真实 SQL 查询匹配的预测 SQL 查询。

4.2.3 非严格召回率（NSR）

定义为每个问题的链接模式集与真实模式集交集元素之和与真实模式集元素总数的比率，用于衡量模式链接在确定 SQL 生成准确性方面的有效性（此前召回率未明确定义）。

4.2.4 严格召回率（SRR）

若生成正确 SQL 查询所需的所有列都包含在链接模式中，则值为 1，否则为 0。严格召回率是成功召回所有所需模式元素的示例比例与总示例数的比率。本文方法旨在最大化严格召回率（SRR），同时保持链接模式集尽可能小以减少提示大小。

4.3 基线方法

实验中将所提出的方法与多种先进的文本到 SQL 方法进行比较，这些基线方法采用不同策略来提高性能，代表了该领域的前沿水平。例如 DIN-SQL 和 MAC-SQL 采用任务分解策略，E-SQL 和 CHESS 专注于模式丰富和链接，SQL-PaLM 和SuperSQL 采用不同的提示和微调技术，TA-SQL 和 CodeS 引入减少大语言模型生成 SQL 时幻觉的策略，DAIL-SQL 旨在处理复杂数据库环境，还有基于多阶段策略的方法如 DTSSQL、MAG-SQL 和 MCS-SQL 等。

05.结果与分析

5.1 主要结果

5.1.1 BIRD 结果

在 BIRD 开发集上使用 GPT-4o 和 DeepSeek 模型进行实验，将 RSL-SQL 框架与17种基线方法比较。结果显示，MSc - SQL 在基于微调的方法中在 BIRD 开发集上具有当前最优的指标，但执行准确率仍略低于使用 GPT-4o 模型的 RSL-SQL 框架。在使用 GPT-4o 模型的相同条件下， RSL-SQL 不仅实现了更高的执行准确率，而且成本显著低于 E-SQL 方法，其67.21% 的执行准确率在开源领域设定了新的 SOTA 基准。

5.1.2 Spider 结果

在 Spider 测试集上的实验评估了 RSL-SQL 的泛化能力，使用 DeepSeek 模型时执行准确率达到87.7%，使用 GPT-4o 模型时提高到 87.9%，与最新的 MCS-SQL 模型（ GPT-4 ）的 89.6% 执行准确率接近，突出了 RSL-SQL 的强泛化能力和生成高质量文本到SQL的潜力。

5.1.3 模式链接结果

模式链接的质量影响最终生成SQL的准确性和输入令牌的长度。在 BIRD 数据集上的实验表明， CHESS 方法通过检索结合大语言模型的多轮过滤实现模式链接，严格召回率为 89.7%， MCS-SQL 方法采用多提示和多选解码策略，利用大语言模型迭代选择，严格召回率为 89.8%。相比之下， RSL-SQL 方法仅需一到两轮输入，显著减少令牌消耗，使用 GPT-4o 模型时，双向模式链接在 NSR 和 SRR 指标上均达到 SOTA 性能，完全召回 94% 的 SQL 生成所需列。正向模式链接召回率相对较低，反向模式链接召回率近 90%，凸显其重要性。本文方法不仅召回绝大多数表，还显著减少列数，且正向和反向模式链接高度互补，合并后的列数未大幅增加，整体实现 SOTA 性能。

5.2 分析

5.2.1 提示细化

对于大语言模型，提示至关重要。实验前通过调整提示结构和提供的信息来细化提示，验证了提示中附加信息的有效性。基本提示包含完整数据库模式、用户问题和额外上下文，添加少量示例使执行准确率提高 10%，进一步添加数据样本使准确率再提高 2%。经过提示调整后，即使不添加其他组件，使用 GPT-4o 和 DeepSeek 模型的执行准确率也分别达到57.63% 和 62.06%，证明了提示的稳健性。

5.2.2 RSL-SQL 框架

框架的每个步骤都有效提高了执行准确率，其中步骤2和步骤3是核心，对整体改进贡献超过 70%。步骤1（BSL）通过正向模式链接生成初步 SQL 并简化数据库模式，提高召回率并减少噪声，使性能提升约 1%；步骤2（CIA）是核心步骤之一，通过生成上下文增强信息，显著提高正收益，使执行准确率提高 2%-3%，但也可能略微增加模式链接的负面影响；步骤3（BSS）通过选择更好的 SQL，有效减轻模式链接风险，提高执行准确率 1.5% 左右；步骤4（MTSC）通过迭代优化错误 SQL，进一步提高生成 SQL 的准确性，虽改进幅度较小但仍有积极作用。

5.2.3 令牌消耗和成本

为验证方法的低消耗特性，对 MAC-SQL 、 TA-SQL 和 E-SQL 等方法进行实验并估计令牌消耗和成本。结果表明，使用 DeepSeek 模型的 RSL-SQL 开销更低且性能优于一些使用 GPT-4 模型的方法，使用 GPT-4o 模型时， E-SQL 方法消耗的令牌是 RSL-SQL 的三倍，性能却低约 2%。

5.3 消融研究

5.3.1 双向模式链接

由正向和反向模式链接组成。消融实验表明，使用 GPT-4o 模型时，双向模式链接在后续步骤中的执行准确率高于单独使用正向或反向模式链接；而对于 DeepSeek 模型，仅使用反向模式链接在后续步骤中的执行准确率略高于双向模式链接，这是因为对于 DeepSeek 模型，双向模式链接虽提高了召回率但引入更多噪声，对 SQL 生成产生负面影响，而对于较强模型（如 GPT-4o ），召回率的提高通常会带来更高的执行准确率。此外，仅基于正向模式链接结果的步骤2（CIA）执行准确率呈下降趋势，凸显了反向模式链接在模式链接过程中的必要性，不过应用二元选择策略后，基于正向模式链接结果的执行准确率显著提高，证明了该策略的有效性和稳健性。

5.3.2 上下文信息增强

步骤2（CIA）是 RSL-SQL 框架的核心步骤之一，显著增加正收益。其关键在于组件，生成的文本信息帮助大语言模型理解用户查询与数据库的映射以及关键字的使用。实验表明，这些组件对执行准确率贡献约 2% - 3%，列描述对性能提升超1%，但对于 DeepSeek 模型，SQL 组件生成的改进仅为 0.46%，原因是其生成的组件文本质量较低。通过示例展示了上下文信息如何帮助大语言模型生成正确 SQL，进一步通过在子采样开发集上的消融实验，验证了 SQL 组件生成中每个组件对执行准确率均有显著贡献，整体可提高执行准确率超 2%，充分证明其在模型性能优化中的有效性。例如，生成的条件可帮助大语言模型按步骤有序解决问题，生成的 SQL 关键字能提醒大语言模型关键约束等。为了进一步验证 SQL 组件生成中每个组件的有效性，我们在子采样开发集上进行消融实验。如表 VII 所示，无论在 DeepSeek 还是 GPT-4o 模型上，SQL 组件生成的每个组件都对执行准确性有显著贡献。此外，SQL 组件生成作为一个整体可以将执行准确性提高超过 2%，这充分证明了它在模型性能优化方面的有效性。

06.案例研究

本部分主要通过具体案例展示 RSL-SQL 框架如何确保 SQL 生成的正确性，核心在于上下文信息增强（CIA）和二元选择策略（BSS），以下为详细总结：

6.1 最大化正收益

6.1.1 案例描述

问题：潜力最低的那个球员在进攻时更倾向使用哪只脚？

## 初始SQL1（在步骤1生成）``SELECT preferred_foot FROM Player_Attributes` `ORDER BY potential ASC` `LIMIT 1;``## 此 SQL 生成错误是因为未考虑并行条件，导致结果有偏差。

## 正确SQL2（在步骤2生成）``SELECT preferred_foot` `FROM player_attributes` `WHERE potential = (SELECT MIN(potential) FROM player_attributes)

6.1.2 上下文信息增强的作用

生成的上下文信息全面覆盖了 SQL 生成所需的

关键表及字段（player_attributes.potential 和player_attributes.preferred_foot）。

包含的关键字“MIN”明确提示了并行条件的可能性。

这些补充信息使大语言模型更好地理解查询语义细微差别和数据库结构，从而能生成正确 SQL，有效提升了正收益，即让原本错误的 SQL 向正确方向改进。

6.2 最小化负面影响

6.2.1 案例描述

问题：分子 TR151 是致癌的吗？

## SQL1（在步骤1生成）此SQL正确``SELECT label FROM molecule WHERE molecule_id = 'TR151'

## SQL2（在步骤2生成）此 SQL错误``SELECT label FROM molecule` `WHERE molecule_id = 'TR151' AND label = '+'``## 引入新组件后该SQL错误，执行结果为空。

## SQL3（在步骤3生成）此 SQL正确``SELECT label FROM molecule WHERE molecule_id = 'TR151'

6.2.2 二元选择策略的作用

二元选择策略在此处发挥关键作用，它通过让大语言模型结合执行信息分析两个候选 SQL的结果。最终准确选择了正确的 SQL1 作为 SQL3，从而最小化了由于引入新组件导致原本正确 SQL 被修改错误的负面影响，有效降低了风险，确保在模式链接过程中既能保留必要信息又能减少错误。

通过这两个案例，直观展示了 RSL-SQL 框架中上下文信息增强和二元选择策略的重要性和有效性，体现了框架在处理文本到SQL生成任务时应对各种情况以生成准确SQL的能力。

07.结论

本部分对整个研究进行了总结，强调了 RSL-SQL 框架的重要成果和意义，具体内容如下：

7.1 框架性能达成

RSL-SQL 框架在 BIRD 开发集上取得了开源领域的最先进（ SOTA ）性能，这表明该框架在处理文本到SQL生成任务时具有卓越的能力，能够有效地将自然语言问题转换为准确的SQL语句。

7.2 模式链接成果

采用双向模式链接方法是框架的重要策略之一，其严格召回率达到了94%。这意味着该方法在识别和召回与SQL生成相关的数据库模式元素方面表现出色，能够尽可能全面地获取必要信息，为准确生成SQL奠定了坚实基础。同时，通过深入分析模式链接召回率对不同模型SQL生成执行准确率的影响，进一步明确了该方法在整个框架中的关键作用以及与模型性能之间的紧密联系。

7.3 组件有效性验证

通过消融研究，严谨地验证了框架内每个组件的有效性及其运行机制。这表明框架中的各个组件（如双向模式链接、上下文信息增强、二元选择策略和多轮自校正等）都不是孤立的，而是相互协作、共同发挥作用，每个组件都对整体性能的提升有着不可或缺的贡献。

7.4 成本效益平衡

在与其他方法比较计算成本时， RSL-SQL 框架展现出了在性能和成本之间的出色平衡。它不仅能够实现较高的执行准确率，而且在资源消耗方面也具有优势，例如在使用 DeepSeek 模型时，其开销更低且性能优于一些使用 GPT-4 模型的方法，在使用 GPT-4o 模型时，相比 E-SQL 方法，消耗更少的令牌却能达到更高的性能。这使得 RSL-SQL 成为一种高效且具有成本效益的解决方案，为实际应用提供了更具可行性的选择。

7.5 未来研究方向展望

最后，论文指出了未来研究的可能方向，如进一步探索优化模式链接的方法，这有助于在现有基础上进一步提高召回率和准确性；提升框架在更复杂场景下的性能，以应对现实世界中日益多样化和复杂的数据库查询需求；研究如何更好地利用上下文信息，进一步提高SQL生成的准确性和效率，使框架能够更加智能地理解和处理自然语言问题，生成更加优化的SQL语句。

综上所述， RSL-SQL 框架在文本到SQL生成任务中具有显著优势，其研究成果为该领域的发展提供了重要的参考和借鉴，同时也为未来的研究指明了方向。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述