📖标题:Chumor 2.0: Towards Benchmarking Chinese Humor Understanding
🌐来源:arXiv, 2412.17729
🌟摘要
🔸现有的幽默数据集和评估主要集中在英语上,为中文等非英语语言中的文化微妙幽默留下了有限的资源。
🔸为了解决这一差距,我们构建了Chumor,这是第一个超过现有幽默数据集大小的中国幽默解释数据集。Chumor来源于弱智吧,一个类似Reddit的中国平台,以分享具有智力挑战性和文化特色的笑话而闻名。
🔸我们通过直接和思维链提示测试了10个LLM,发现Chumor对现有的LLM提出了重大挑战,其准确性略高于随机性,远低于人类。此外,我们的分析强调,人类注释的幽默解释明显优于GPT-4o和ERNIE4 turbo生成的解释。数据在https://huggingface.co/datasets/dnaihao/Chumor
🛎️文章简介
🔸研究问题:大语言模型(LLM)在理解和解释中文幽默方面面临挑战。
🔸主要贡献:论文贡献了一个名为Chumor的中文幽默理解数据集,并评估了多种LLM在该数据集上的表现,揭示了LLM在中文幽默理解上的显著不足。
📝重点思路
🔸构建Chumor数据集,包含六种类型的中文笑话,并由五位中文母语者手动注释。
🔸使用直接提示(DP)和链式思维提示(CoT)两种策略评估十种不同LLMs的表现。
🔸通过准确率、假阳性率(FPR)、假阴性率(FNR)和马修斯相关系数(MCC)等指标进行模型性能评估。
🔸进行错误分析,按笑话类型和错误类型(如文化无知、双关错误、同音错误等)详细分析LLM的表现。
🔸进行案例研究,比较GPT-4o和ERNIE 4-turbo生成的解释与人类解释的质量。
🔎分析总结
🔸所有LLM在中文幽默理解任务上表现不佳,最佳准确率仅为60.3%,远低于人类的78.3%。
🔸链式思维提示(CoT)在某些情况下会降低模型性能,导致模型过度分析或过于批判。
🔸人类注释的笑话解释显著优于GPT-4o和ERNIE 4-turbo生成的解释。
🔸LLM在文化特定笑话、双关笑话和同音笑话上表现较差,显示出对中文文化和语言理解的不足。
🔸GPT-4o在理解上下文或双关方面表现较好,但在文化无知和同音错误上表现较差;ERNIE 4-turbo在文化笑话上表现较好,但在其他类型笑话上表现较差。
💡个人观点
论文的核心是建立了一个中文幽默理解数据集,并发现了国外模型在中文的差距。