基于星火大模型的群聊对话分角色要素提取挑战-baseline2,task4技术笔记4

1.提分方向

想要数据跑的更快,分数更高,下面是一些提分思路

1.1.数据处理

我们观察过整体数据,有的很长,长到3万字左右;有的很短,短到300字左右,而平均数据每条也有6000字。有没有想过怎么让数据展现的信息更有效? 你可以从以下几个方面去努力

  1. 试着用大语言模型做数据增强,根据抽取字段做数据提取。

  2. 通过字符的处理,将对话的无关信息删除。不要让“[图片]”这种信息干扰你。

1.2.使用prompt

prompt是一个做大语言模型应用都需要掌握的东西,目前baseline的抽取方式已经有一定的效果。在我的博客里也写过prompt的介绍。当然有吴恩达老师的课可以去看看。

1.3.agent

当你处理复杂问题的时候,往往单独使用大语言模型无法直接完成你想要的内容,这里你可以试试做一个自己的agent。agent在文档博客中有介绍。

1.4.数据集扩充

回顾数据集,我们的训练集为130条,但如果只是130条做微调一个问题是数据量太少了,我们没法完全去微调我们的数据。那这里就需要使用大模型对task3处理的数据再做扩充,这样会保证微调效果更好。

1.5.微调改进

微调方面也需要做更新改进,在task03中我们使用了讯飞平台的微调任务。但只是通过这种方法得到的微调效果可能并不理想,怎么在这里下点功夫呢?

  1. 很简单的一点是对赛题抽取数据的任务分类,用大模型总结成不同的类别。接着针对类别单独做抽取微调。效果会好很多。

  2. 设计总结模型,首先训练出来一个总结的大模型,通过总结大模型稳定的抽取出关键信息减少其他信息干扰,然后再送入抽取的微调模型。

1.6.function call

function call可以设计出专门用来抽取的工具,相比于直接调用大模型,function call的优势在于可以稳定控制输出,得到需要的输出结构。

以上就是一些数据提分的方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值