主要内容:探索GPT是否能做法定推理,模型:text-davinci-003,数据集:SARA,用了好几种方法,结果有部分缺陷。
dataset:SARA
来源:从美国税法中抽取的9个法定章节和376个人工制作的案例,陈述简单的事实,并提出一个可以将9个章节中某些法规应用在事实上的问题。
筛除:376个中有100个纯粹的“税务案件”(询问个人必须支付多少税,答案通常是数千美元),GPT-3对这些数字推理时表现不佳,所以删掉这100个案例,剩下276个里有193项(121训练,72测试)涉及数字,83项(55训练,28测试)不涉及数字,对于所有的测试,文章在72个有数字的测试数据和28个没数字的测试数据上分别计算结果。
method:用了三种方法
第一种:小样本学习。对每个测试案例,选择四个最相似的训练案例,对这四个训练案例,给出案例全文,标注出“前提”、“假设”、“答案(蕴含/矛盾)”。(对应图最左列)
第二种:零样本学习。不用训练案例,直接把测试案例的“前提”和“假设”丢进去得到“答案”。(对应图最右列)
第三种:小样本学习+COT(COT在这篇http://t.csdn.cn/HjNdB),用十个训练案例做十个COT,这十个提示(案例叠加COT)给所有测试案例用。(对应图中间列)
图中橙色是法律条文(few-shot learning和zero-shot reasoning中给的是和测试案例最相关的条文,few-shot reasoning中给的是和整个测试集最相关的条文),蓝色是用来学习的案例,绿色是测试案例,黄色高光是GPT-3生成的文本。
法律条文是怎么得到的?
other tips:
1:作者试了在前两种的prompt末尾加上“let's think step by step.”的对比试验,第三种没加因为COT本来就是一步一步推的了。
2:作者猜想GPT-3可能在训练数据时就已经见过这些法律条文了,所以加了不提供法律条文的对比试验。
experience result:
tips1偶尔能提高推理能力, 在100个案例数据上文章的prompt设置超过了SOTA,并且耗的人力更少。用unequal variances t-test衡量的话,只有文章最好的那个模型超过了SOTA,前两个好的模型超过大部分baseline。
剩下的是很针对英美法系的实验了,懒得看了。