1.提分方向
想要数据跑的更快,分数更高,下面是一些提分思路
1.1.数据处理
我们观察过整体数据,有的很长,长到3万字左右;有的很短,短到300字左右,而平均数据每条也有6000字。有没有想过怎么让数据展现的信息更有效? 你可以从以下几个方面去努力
-
试着用大语言模型做数据增强,根据抽取字段做数据提取。
-
通过字符的处理,将对话的无关信息删除。不要让“[图片]”这种信息干扰你。
1.2.使用prompt
prompt是一个做大语言模型应用都需要掌握的东西,目前baseline的抽取方式已经有一定的效果。在我的博客里也写过prompt的介绍。当然有吴恩达老师的课可以去看看。
1.3.agent
当你处理复杂问题的时候,往往单独使用大语言模型无法直接完成你想要的内容,这里你可以试试做一个自己的agent。agent在文档博客中有介绍。
1.4.数据集扩充
回顾数据集,我们的训练集为130条,但如果只是130条做微调一个问题是数据量太少了,我们没法完全去微调我们的数据。那这里就需要使用大模型对task3处理的数据再做扩充,这样会保证微调效果更好。
1.5.微调改进
微调方面也需要做更新改进,在task03中我们使用了讯飞平台的微调任务。但只是通过这种方法得到的微调效果可能并不理想,怎么在这里下点功夫呢?
-
很简单的一点是对赛题抽取数据的任务分类,用大模型总结成不同的类别。接着针对类别单独做抽取微调。效果会好很多。
-
设计总结模型,首先训练出来一个总结的大模型,通过总结大模型稳定的抽取出关键信息减少其他信息干扰,然后再送入抽取的微调模型。
1.6.function call
function call可以设计出专门用来抽取的工具,相比于直接调用大模型,function call的优势在于可以稳定控制输出,得到需要的输出结构。
以上就是一些数据提分的方法。