Interpretable Chinese Metaphor Identification via LLM-Assisted MIPVU Rule Script Generation: A Comparative Protocol Study

TL;DR

通过LLM辅助生成MIPVU规则脚本，实现可解释的中文隐喻识别，跨协议比较显示协议选择是主要变异来源。

cs.CL 🔴 高级 2026-03-11 13 次浏览

Weihang Huang Mengna Liu

AI 阅读器 Arxiv 原文下载 PDF

隐喻识别大语言模型可解释性中文处理跨协议比较

核心发现

方法论

本文提出了一种LLM辅助的隐喻识别管道，结合四种协议：MIP/MIPVU词汇分析、CMDAG概念映射标注、基于情感的检测和类比导向的识别。每个协议由一系列模块化的确定性步骤组成，并与受控的LLM调用交错，生成结构化的分类决策理由。

关键结果

结果1：在七个中文隐喻数据集上进行评估，协议A（MIP）在词汇层面识别中达到F1值0.472，而协议A和D之间的Cohen's kappa仅为0.001，协议B和C则几乎完全一致（kappa = 0.986）。
结果2：所有协议在可解释性审核中实现了100%的确定性可重复性，理由正确性从0.40到0.87不等，编辑性从0.80到1.00。
结果3：错误分析显示，概念域不匹配和语域敏感性是主要的失败模式。

研究意义

本研究首次在中文隐喻识别中进行跨协议比较，发现协议选择是变异的最大来源，超过了模型级别的变异。这表明在隐喻识别中，协议的选择比模型的选择更为重要。此外，规则脚本架构在保持完全透明的同时实现了具有竞争力的性能，为未来的研究提供了新的方向。

技术贡献

本文的技术贡献在于将四种隐喻识别协议实现为可执行的规则脚本，提供了完整的可解释性和可审计性。与现有的端到端分类器不同，这种方法允许对每个决策步骤进行详细的审计和修改，确保了结果的可重复性和透明性。

新颖性

本研究首次将LLM用于生成可执行的隐喻识别规则脚本，并在中文语境中进行跨协议比较。这种方法不仅提高了识别的准确性，还增强了结果的可解释性和可重复性。

局限性

局限1：由于中文缺乏形态学标记，隐喻识别几乎完全依赖于上下文和世界知识，这增加了识别的复杂性。
局限2：协议之间的差异可能导致识别结果的不一致，特别是在处理复杂的隐喻结构时。
局限3：尽管规则脚本提供了透明性，但其依赖的LLM可能引入偏差，特别是在处理未见过的语料时。

未来方向

未来的研究可以探索如何更好地结合多种协议，以提高隐喻识别的准确性和一致性。此外，开发更丰富的中文隐喻标注资源和改进LLM的上下文理解能力也是重要的研究方向。

AI 总览摘要

隐喻识别是比喻语言处理中的基础任务，但大多数计算方法都作为不透明的分类器运行，无法提供表达为何被判断为隐喻的见解。这种可解释性差距在中文中尤为明显，因为丰富的比喻传统、缺乏形态线索和有限的标注资源加剧了这一挑战。

本文提出了一种LLM辅助的管道，将四种隐喻识别协议——MIP/MIPVU词汇分析、CMDAG概念映射标注、基于情感的检测和类比导向的识别——实现为可执行的、可人工审计的规则脚本。每个协议都是一系列模块化的确定性步骤，与受控的LLM调用交错，生成结构化的分类决策理由。

我们在七个中文隐喻数据集上进行了评估，涵盖了词汇、句子和跨度级别的标注，建立了中文隐喻识别的首次跨协议比较。协议A（MIP）在词汇层面识别中达到F1值0.472，而跨协议分析显示出显著的差异：协议A和D之间的Cohen's kappa仅为0.001，而协议B和C则几乎完全一致（kappa = 0.986）。

可解释性审核显示，所有协议在可解释性审核中实现了100%的确定性可重复性，理由正确性从0.40到0.87不等，编辑性从0.80到1.00。错误分析识别出概念域不匹配和语域敏感性是主要的失败模式。

我们的结果表明，协议选择是隐喻识别中变异的最大来源，超过了模型级别的变异，并且规则脚本架构在保持完全透明的同时实现了具有竞争力的性能。我们发布了代码库、协议实现和评估脚本，以支持可重复的比喻语言处理研究。

深度分析

研究背景

隐喻在语言中无处不在，从日常生活到文学作品，隐喻表达通过具体的经验来结构化我们对抽象概念的推理。自动隐喻识别，即确定给定语言表达是否以隐喻方式使用的任务，已经在计算语言学中受到持续关注，推动了情感分析、机器翻译和话语理解等应用的发展。

尽管取得了相当大的进展，领域仍面临着一个持久的问题。基于预训练语言模型的最先进的神经分类器在基准数据集上取得了强劲的表现，但未能为其决策提供结构化的解释。模型可能会正确地将一个词标记为隐喻，但却无法提供概念映射、基本意义对比或比喻机制的见解，这限制了对这些模型学习内容的科学理解以及在需要用户知情的教育或标注支持环境中的实际部署。

在中文中，这一可解释性问题更加复杂。首先，中文缺乏形态变化和派生模式，这些模式为印欧语言中的隐喻提供了表面线索；字面和比喻意义之间的区别几乎完全需要通过上下文和世界知识来解决。其次，中文的比喻语言涵盖了多种现象，包括概念隐喻、明喻、转喻和文化特定的修辞手法，这些现象无法与为英语开发的标注框架轻松对应。第三，中文隐喻的标注资源仍然相对稀缺，并且分散在不兼容的标注方案中。

核心问题

隐喻识别的核心问题在于如何在不透明的分类器和可解释性之间取得平衡。现有的神经网络模型虽然在性能上表现优异，但缺乏对其决策过程的透明性，这在中文隐喻识别中尤为突出。

中文的复杂性在于其缺乏形态学标记，隐喻识别几乎完全依赖于上下文和世界知识。此外，中文的比喻语言现象多样，涵盖了概念隐喻、明喻、转喻等，这些现象无法与为英语开发的标注框架轻松对应。标注资源的稀缺和不兼容性进一步增加了识别的难度。

因此，如何在保持高性能的同时，提供对隐喻识别过程的可解释性，成为了一个亟待解决的挑战。

核心创新

本文的核心创新在于提出了一种LLM辅助的隐喻识别管道，将四种隐喻识别协议实现为可执行的规则脚本。这种方法不仅提高了识别的准确性，还增强了结果的可解释性和可重复性。

�� LLM辅助的规则脚本生成：通过LLM生成可执行的隐喻识别规则脚本，实现了对隐喻识别过程的完全透明性。

�� 跨协议比较：首次在中文隐喻识别中进行跨协议比较，揭示了协议选择是变异的最大来源。

�� 模块化设计：每个协议由一系列模块化的确定性步骤组成，与受控的LLM调用交错，生成结构化的分类决策理由。

方法详解

本文的方法论由以下几个步骤组成：

�� 预处理：对文本进行分词、词性标注和规范化处理，确保一致性。

�� 候选选择：根据协议的不同，选择分析目标。例如，协议A选择所有内容词，协议B选择包含潜在跨域表达的句子。

�� 语义分析：使用LLM进行上下文意义和基本意义的检索与对比，或进行情感价的评估。

�� 分类决策：根据协议标准做出二元或多类决策。例如，协议A在上下文意义与基本意义对比后标记为隐喻。

�� 理由生成：生成每个决策的结构化解释，包括触发决策的具体协议步骤、关键证据和置信度指示。

实验设计

实验设计包括在七个中文隐喻数据集上进行评估，涵盖了词汇、句子和跨度级别的标注。使用的基准数据集包括PSU CMC、CMC、CMDAG、Chinese Simile、NLPCC 2024 T9、ConFiguRe和ChineseMCorpus。

每个协议在其最接近的标注数据集上进行评估，使用标准的训练/开发/测试拆分。在跨协议评估中，所有四个协议应用于PSU CMC的一个公共子集，并转换为句子级别标签。

实验使用GPT-4作为基础LLM，设置温度为0以最大化确定性。评估使用标准指标：精度、召回率和F1分数，以及跨度提取的部分匹配F1。

结果分析

实验结果显示，协议A（MIP）在词汇层面识别中达到F1值0.472，整体准确率为0.898。注册级别分析显示，学术文本的表现最佳，F1值为0.598。

协议B（CMDAG）在句子级别识别中达到F1值0.347，显示出高精度但低召回率，表明其在识别隐喻时通常是正确的，但错过了许多隐喻句子。

协议C（Emotion）和协议B的表现相似，表明基于情感和概念映射的方法在数据集中捕获了相似的隐喻子集。协议D（Simile）在二元分类中达到F1值0.392，显示出中等精度。

应用场景

本文的方法可以直接应用于中文文本的隐喻识别，特别是在需要高透明性和可解释性的场景中，如教育和标注支持环境。

此外，该方法可以用于开发更复杂的比喻语言处理系统，结合多种协议以提高识别的准确性和一致性。

在工业应用中，该方法可以用于情感分析、机器翻译和话语理解等领域，提供更精确和可解释的结果。

局限与展望

尽管本文的方法在隐喻识别中表现出色，但仍存在一些局限性。首先，由于中文的复杂性，隐喻识别几乎完全依赖于上下文和世界知识，这增加了识别的复杂性。

其次，协议之间的差异可能导致识别结果的不一致，特别是在处理复杂的隐喻结构时。

最后，尽管规则脚本提供了透明性，但其依赖的LLM可能引入偏差，特别是在处理未见过的语料时。未来的研究可以探索如何更好地结合多种协议，以提高隐喻识别的准确性和一致性。

通俗解读非专业人士也能看懂

想象一下，你在厨房里做饭。你有四个不同的食谱，每个食谱都有自己的步骤和要求。为了做出美味的菜肴，你需要选择一个食谱，然后按照步骤一步一步来。

在这个过程中，你可能会遇到一些问题，比如食材不够或者步骤不清楚。这时候，你可以求助于一个经验丰富的厨师，他会根据你的需要提供建议和指导，帮助你解决问题。

在隐喻识别中，我们就像是在选择和执行不同的食谱。每个协议就像一个食谱，有自己的步骤和要求。我们使用大语言模型（LLM）作为我们的“厨师”，帮助我们在需要的时候提供建议和指导。

通过这种方式，我们可以更好地理解和识别文本中的隐喻，就像做出一道美味的菜肴一样。每个步骤都是透明的，我们可以看到每个决策是如何做出的，并根据需要进行调整。

简单解释像给14岁少年讲一样

嘿，小伙伴们！今天我们来聊聊一个有趣的话题：隐喻识别。想象一下，你在玩一个游戏，游戏里有四个不同的角色，每个角色都有自己的技能和任务。

在这个游戏中，你需要选择一个角色，然后完成任务。每个角色都有自己的特点，比如有的角色擅长攻击，有的角色擅长防御。为了赢得游戏，你需要根据情况选择合适的角色。

在隐喻识别中，我们就像是在选择不同的角色。每个协议就像一个角色，有自己的技能和任务。我们使用大语言模型（LLM）作为我们的“游戏指南”，帮助我们在需要的时候提供建议和指导。

通过这种方式，我们可以更好地理解和识别文本中的隐喻，就像在游戏中赢得胜利一样。每个步骤都是透明的，我们可以看到每个决策是如何做出的，并根据需要进行调整。是不是很酷？

术语表

隐喻识别 (Metaphor Identification)

隐喻识别是指确定给定语言表达是否以隐喻方式使用的任务。

在本文中，隐喻识别是通过四种协议实现的。

大语言模型 (Large Language Model, LLM)

大语言模型是一种基于深度学习的模型，能够理解和生成自然语言。

本文使用LLM来辅助生成隐喻识别的规则脚本。

MIP/MIPVU

MIP/MIPVU是一种隐喻识别协议，通过词汇分析来识别隐喻。

协议A使用MIP/MIPVU进行词汇层面的隐喻识别。

CMDAG

CMDAG是一种隐喻识别协议，通过概念映射标注来识别隐喻。

协议B使用CMDAG进行句子层面的隐喻识别。

情感检测 (Emotion-Based Detection)

情感检测是一种隐喻识别协议，通过识别情感不一致来识别隐喻。

协议C使用情感检测进行隐喻识别。

类比识别 (Simile-Oriented Identification)

类比识别是一种隐喻识别协议，通过识别明确的比较标记来识别隐喻。

协议D使用类比识别进行隐喻识别。

规则脚本 (Rule Script)

规则脚本是一种可执行的程序，用于实现隐喻识别协议。

本文提出的隐喻识别方法使用规则脚本来实现。

跨协议比较 (Cross-Protocol Comparison)

跨协议比较是指在相同数据集上比较不同隐喻识别协议的表现。

本文首次在中文隐喻识别中进行跨协议比较。

Cohen's kappa

Cohen's kappa是一种统计指标，用于衡量分类器之间的一致性。

本文使用Cohen's kappa来评估协议之间的一致性。

可解释性 (Interpretability)

可解释性是指模型或算法的决策过程是否透明和可理解。

本文的方法通过规则脚本实现了高可解释性。

开放问题这项研究留下的未解疑问

1 开放问题1：如何在不增加计算复杂度的情况下，提高隐喻识别的准确性和一致性？现有的方法在处理复杂的隐喻结构时表现不佳，需要更高效的算法。
2 开放问题2：如何开发更丰富的中文隐喻标注资源，以支持更全面的隐喻识别研究？现有的标注资源稀缺且不兼容，限制了研究的广度和深度。
3 开放问题3：如何改进LLM的上下文理解能力，以更好地支持隐喻识别？现有的LLM在处理未见过的语料时可能引入偏差，需要更强大的上下文理解能力。
4 开放问题4：如何更好地结合多种协议，以提高隐喻识别的准确性和一致性？现有的协议在处理复杂的隐喻结构时表现不佳，需要更有效的组合策略。
5 开放问题5：如何在保持高透明性的同时，提高隐喻识别的性能？现有的规则脚本方法虽然透明，但在性能上可能不如端到端分类器。

应用场景

近期应用

教育领域

该方法可以用于教育领域的隐喻识别教学，帮助学生更好地理解和分析文本中的隐喻。

情感分析

在情感分析中，该方法可以提供更精确和可解释的结果，帮助企业更好地理解客户反馈。

机器翻译

在机器翻译中，该方法可以提高翻译的准确性，特别是在处理比喻语言时。

远期愿景

跨语言隐喻识别

该方法可以扩展到其他语言，实现跨语言的隐喻识别，促进多语言文本分析。

智能文本分析系统

该方法可以用于开发智能文本分析系统，提供更全面和深入的文本理解能力。

原文摘要

Metaphor identification is a foundational task in figurative language processing, yet most computational approaches operate as opaque classifiers offering no insight into why an expression is judged metaphorical. This interpretability gap is especially acute for Chinese, where rich figurative traditions, absent morphological cues, and limited annotated resources compound the challenge. We present an LLM-assisted pipeline that operationalises four metaphor identification protocols--MIP/MIPVU lexical analysis, CMDAG conceptual-mapping annotation, emotion-based detection, and simile-oriented identification--as executable, human-auditable rule scripts. Each protocol is a modular chain of deterministic steps interleaved with controlled LLM calls, producing structured rationales alongside every classification decision. We evaluate on seven Chinese metaphor datasets spanning token-, sentence-, and span-level annotation, establishing the first cross-protocol comparison for Chinese metaphor identification. Within-protocol evaluation shows Protocol A (MIP) achieves an F1 of 0.472 on token-level identification, while cross-protocol analysis reveals striking divergence: pairwise Cohen's kappa between Protocols A and D is merely 0.001, whereas Protocols B and C exhibit near-perfect agreement (kappa = 0.986). An interpretability audit shows all protocols achieve 100% deterministic reproducibility, with rationale correctness from 0.40 to 0.87 and editability from 0.80 to 1.00. Error analysis identifies conceptual-domain mismatch and register sensitivity as dominant failure modes. Our results demonstrate that protocol choice is the single largest source of variation in metaphor identification, exceeding model-level variation, and that rule-script architectures achieve competitive performance while maintaining full transparency.

cs.CL cs.IR

参考文献 (20)

ConFiguRe: Exploring Discourse-level Chinese Figures of Speech

Dawei Zhu, Qiusi Zhan, Zhejian Zhou 等

2022 4 引用 ⭐ 高影响力查看解读 →

Neural Multitask Learning for Simile Recognition

Lizhen Liu, Xiao Hu, Wei Song 等

2018 41 引用 ⭐ 高影响力

The measurement of observer agreement for categorical data.

J. Landis, G. Koch

1977 76646 引用

MelBERT: Metaphor Detection via Contextualized Late Interaction using Metaphorical Identification Theories

Minjin Choi, Sunkyung Lee, Eunseong Choi 等

2021 123 引用查看解读 →

Semantic classifications for detection of verb metaphors

Beata Beigman Klebanov, C. W. Leong, E. Gutiérrez 等

2016 62 引用

Metaphor Detection with Cross-Lingual Model Transfer

Yulia Tsvetkov, Leonid Boytsov, A. Gershman 等

2014 270 引用

Metaphor Detection with Effective Context Denoising

Shunyu Wang, Yucheng Li, Chenghua Lin 等

2023 22 引用查看解读 →

A Report on the 2018 VUA Metaphor Detection Shared Task

C. W. Leong, Beata Beigman Klebanov, Ekaterina Shutova

2018 92 引用

CMDAG: A Chinese Metaphor Dataset with Annotated Grounds as CoT for Boosting Metaphor Generation

Yujie Shao, Xinrong Yao, Xingwei Qu 等

2024 13 引用查看解读 →

A method for linguistic metaphor identification : from MIP to MIPVU

G. Steen

2010 1309 引用

Metaphor: A Practical Introduction

Z. Kövecses, R. Benczes

2002 2633 引用

MIP: A method for identifying metaphorically used words in discourse

G. Steen, L. Cameron, A. Cienki 等

2007 1661 引用

Models of Metaphor in NLP

Ekaterina Shutova

2010 119 引用

Metaphor Interpretation as Embodied Simulation

R. Gibbs

2006 441 引用

PAL: Program-aided Language Models

Luyu Gao, Aman Madaan, Shuyan Zhou 等

2022 654 引用查看解读 →

DeepMet: A Reading Comprehension Paradigm for Token-level Metaphor Detection

Chuandong Su, F. Fukumoto, Xiaoxi Huang 等

2020 97 引用

Explainable Metaphor Identification Inspired by Conceptual Metaphor Theory

Mengshi Ge, Rui Mao, E. Cambria

2022 64 引用

Pre-Training with Whole Word Masking for Chinese BERT

Yiming Cui, Wanxiang Che, Ting Liu 等

2019 1262 引用

A Report on the 2020 VUA and TOEFL Metaphor Detection Shared Task

C. W. Leong, Beata Beigman Klebanov, Chris Hamill 等

2020 93 引用

Verb Metaphor Detection via Contextual Relation Learning

Wei Song, Shuhui Zhou, Ruiji Fu 等

2021 44 引用

Interpretable Chinese Metaphor Identification via LLM-Assisted MIPVU Rule Script Generation: A Comparative Protocol Study

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

隐喻识别 (Metaphor Identification)

大语言模型 (Large Language Model, LLM)

MIP/MIPVU

CMDAG

情感检测 (Emotion-Based Detection)

类比识别 (Simile-Oriented Identification)

规则脚本 (Rule Script)

跨协议比较 (Cross-Protocol Comparison)

Cohen's kappa

可解释性 (Interpretability)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

教育领域

情感分析

机器翻译

远期愿景

跨语言隐喻识别

智能文本分析系统

原文摘要

参考文献 (20)

相关论文

Neuron-Aware Data Selection In Instruction Tuning For Large Language Models

ESG-Bench: Benchmarking Long-Context ESG Reports for Hallucination Mitigation

Mending the Holes: Mitigating Reward Hacking in Reinforcement Learning for Multilingual Translation

Interpretable Semantic Gradients in SSD: A PCA Sweep Approach and a Case Study on AI Discourse

Long-form RewardBench: Evaluating Reward Models for Long-form Generation

HMS-BERT: Hybrid Multi-Task Self-Training for Multilingual and Multi-Label Cyberbullying Detection

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问