测试集人工标注
为了之后的做之后的模型评估工作,为一些数据可视化评估做准备。我们制定如下五个任务:对话预测、行为预测、关系识别、情感分析、逻辑分析。
不同任务的评估方法和QA示例
-
Dialogue prediction
-
Evaluation:BLEU,GPT
-
Example:
-
start time:01:26:12
-
end time:01:26:42
-
Q: 夏洛接下来要说什么话? A: 可是我最爱的人被别人夺走了。
-
-
-
Action prediction
-
Evaluation:BLEU,GPT
-
Example:
-
start time:01:01:40
-
end time:01:02:10
-
Q: 袁华接下来会做出怎么样的行为? A: 袁华接下来会在漫天飞雪中哭泣。
-
-
-
Relationship judgment
-
Evaluation:BlEU,GPT,Accuracy
-
Example:
-
start time:00:08:28
-
end time:00:09:10
-
Q: 夏洛和马冬梅是什么关系? A: 夏洛和马冬梅是夫妻关系。
-
-
-
Sentiment analysis
-
Evaluation:Accuracy
-
Example:
-
start time:01:01:40
-
end time:01:02:10
-
Q: 袁华此时的心情如何? A: 此时袁华的心情是悲伤的。
-
-
-
Logical analysis
-
Evaluation:BLEU,GPT
-
Example:
-
start time:01:07:00
-
end time:01:08:10
-
Q: 袁华此时作诗和之前作诗时的差别在哪?分析原因。 A: 袁华之前作诗带有批判性,让夏洛很没有面子;现在作诗则极尽谄媚,巴结夏洛。原因在于夏洛和袁华的社会地位发生了翻天覆地的变化。袁华现在穷困潦倒,不比之前。
-
-
下图是我们标注的数据
动作预测
情感分析
逻辑分析
关系判断
对话预测