山东大学软件学院创新实训-角色疆界(六)

测试集人工标注

为了之后的做之后的模型评估工作,为一些数据可视化评估做准备。我们制定如下五个任务:对话预测、行为预测、关系识别、情感分析、逻辑分析。

不同任务的评估方法和QA示例

  • Dialogue prediction

    • Evaluation:BLEU,GPT

    • Example:

      • start time:01:26:12

      • end time:01:26:42

      • Q: 夏洛接下来要说什么话? A: 可是我最爱的人被别人夺走了。

  • Action prediction

    • Evaluation:BLEU,GPT

    • Example:

      • start time:01:01:40

      • end time:01:02:10

      • Q: 袁华接下来会做出怎么样的行为? A: 袁华接下来会在漫天飞雪中哭泣。

  • Relationship judgment

    • Evaluation:BlEU,GPT,Accuracy

    • Example:

      • start time:00:08:28

      • end time:00:09:10

      • Q: 夏洛和马冬梅是什么关系? A: 夏洛和马冬梅是夫妻关系。

  • Sentiment analysis

    • Evaluation:Accuracy

    • Example:

      • start time:01:01:40

      • end time:01:02:10

      • Q: 袁华此时的心情如何? A: 此时袁华的心情是悲伤的。

  • Logical analysis

    • Evaluation:BLEU,GPT

    • Example:

      • start time:01:07:00

      • end time:01:08:10

      • Q: 袁华此时作诗和之前作诗时的差别在哪?分析原因。 A: 袁华之前作诗带有批判性,让夏洛很没有面子;现在作诗则极尽谄媚,巴结夏洛。原因在于夏洛和袁华的社会地位发生了翻天覆地的变化。袁华现在穷困潦倒,不比之前。

下图是我们标注的数据

动作预测

情感分析

逻辑分析

关系判断 

对话预测

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值