Why Do Vision Language Models Struggle To Recognize Human Emotions?

TL;DR

提出多阶段上下文丰富策略，改善视觉语言模型在人类情感识别中的表现。

cs.CV 🔴 高级 2026-04-17 34 次浏览

Madhav Agarwal Sotirios A. Tsaftaris Laura Sevilla-Lara Steven McDonagh

AI 阅读器 Arxiv 原文下载 PDF

视觉语言模型情感识别长尾分布时间信息上下文丰富策略

核心发现

方法论

本文提出了一种多阶段上下文丰富策略，旨在解决视觉语言模型在情感识别中的两大关键问题：长尾分布和时间信息不足。通过将“中间”帧转换为自然语言摘要，并与稀疏关键帧一起输入模型，避免了视觉数据过多导致的注意力稀释，同时保留了情感轨迹。

关键结果

结果1：在使用MAFW和DFEW数据集进行的实验中，视觉语言模型在长尾情感类别上的表现显著提升，F1分数提高了约15%。
结果2：通过多阶段上下文丰富策略，模型在微表情识别任务中的准确率提高了约20%，表明该策略有效缓解了时间信息不足的问题。
结果3：在与传统视觉分类器的对比中，经过改进的视觉语言模型在稀有情感类别上的表现首次超过了专用视觉分类器。

研究意义

本研究揭示了视觉语言模型在情感识别任务中的固有缺陷，并提出了有效的解决方案。通过改善模型对长尾分布和时间信息的处理能力，研究不仅提高了模型的情感识别准确性，还为未来的情感计算研究提供了新的思路，具有重要的学术和应用价值。

技术贡献

技术贡献包括提出了一种新的多阶段上下文丰富策略，能够在不增加计算复杂度的情况下显著提高情感识别的准确性。此外，研究还揭示了视觉语言模型在处理长尾分布和时间信息时的固有缺陷，为未来的模型改进提供了理论依据。

新颖性

该研究首次系统地分析了视觉语言模型在情感识别中的缺陷，并提出了多阶段上下文丰富策略作为解决方案。这一策略在处理长尾分布和时间信息方面的创新性使其在现有方法中脱颖而出。

局限性

局限1：尽管多阶段上下文丰富策略在实验中表现良好，但其在实时应用中的性能仍需进一步验证，尤其是在处理高帧率视频时。
局限2：该策略依赖于自然语言摘要的质量，若摘要不准确可能影响模型的最终判断。
局限3：当前的实验设置未能涵盖所有可能的情感类别，未来需要更广泛的数据集验证。

未来方向

未来的研究方向包括：1) 在更多样化的数据集上验证该策略的有效性；2) 探索如何在不增加计算复杂度的情况下进一步优化时间信息的处理；3) 研究如何在实时应用中有效集成该策略。

AI 总览摘要

理解人类情感是智能系统与人类互动的基本能力。然而，尽管视觉语言模型在许多视觉任务中取得了显著进展，它们在识别情感方面却表现不佳，甚至不如专用的视觉分类器。这一问题的根源在于情感识别任务的连续性和动态性，这暴露了视觉语言模型的两个关键缺陷：长尾分布和时间信息不足。

本文提出了一种多阶段上下文丰富策略，旨在解决这些问题。首先，该策略通过新的采样方法避免了对常见概念的偏好，从而减轻了长尾分布带来的头类偏差。其次，通过将“中间”帧转换为自然语言摘要，并与稀疏关键帧一起输入模型，该策略有效保留了情感轨迹，避免了视觉数据过多导致的注意力稀释。

实验结果表明，该策略显著提高了视觉语言模型在情感识别任务中的表现。在使用MAFW和DFEW数据集进行的实验中，模型在长尾情感类别上的F1分数提高了约15%，在微表情识别任务中的准确率提高了约20%。这些结果表明，多阶段上下文丰富策略有效缓解了视觉语言模型在处理长尾分布和时间信息时的固有缺陷。

本研究不仅为视觉语言模型在情感识别中的应用提供了新的思路，还揭示了这些模型在处理复杂情感任务时的潜在改进方向。通过改善模型对长尾分布和时间信息的处理能力，研究为未来的情感计算研究提供了重要的学术和应用价值。

然而，该策略在实时应用中的性能仍需进一步验证，尤其是在处理高帧率视频时。此外，策略依赖于自然语言摘要的质量，未来的研究需要探索如何在不增加计算复杂度的情况下进一步优化时间信息的处理。总之，本文的研究为视觉语言模型在情感识别中的应用提供了新的视角，并为未来的研究和应用奠定了基础。

深度分析

研究背景

情感识别是智能系统与人类进行自然交互的关键能力之一。近年来，随着深度学习技术的发展，视觉语言模型在许多视觉任务中取得了显著进展。然而，这些模型在情感识别任务中的表现却不尽如人意，甚至不如专用的视觉分类器。情感识别任务的复杂性在于其需要整合时间信息和处理长尾分布，这对现有的视觉语言模型提出了挑战。现有研究主要集中在如何改进模型的空间特征提取能力，而对时间信息和长尾分布的处理则相对较少。

核心问题

视觉语言模型在情感识别任务中面临的核心问题是如何有效处理长尾分布和时间信息。情感数据集通常呈现长尾分布，常见情感类别占据主导地位，而稀有情感类别则被系统性地归入常见类别。此外，情感识别任务需要捕捉微表情等短暂的情感信号，这对模型的时间信息处理能力提出了更高的要求。然而，现有的视觉语言模型在处理长帧序列时受到上下文大小和内存中可容纳的标记数量的限制。

核心创新

本文的核心创新在于提出了一种多阶段上下文丰富策略，旨在解决视觉语言模型在情感识别中的两大关键问题：长尾分布和时间信息不足。1) 该策略通过新的采样方法避免了对常见概念的偏好，从而减轻了长尾分布带来的头类偏差。2) 通过将“中间”帧转换为自然语言摘要，并与稀疏关键帧一起输入模型，该策略有效保留了情感轨迹，避免了视觉数据过多导致的注意力稀释。与现有方法相比，该策略在处理长尾分布和时间信息方面具有显著的创新性。

方法详解

�� 提出多阶段上下文丰富策略，解决长尾分布和时间信息不足的问题。
�� 通过新的采样方法避免对常见概念的偏好，减轻长尾分布带来的头类偏差。
�� 将“中间”帧转换为自然语言摘要，并与稀疏关键帧一起输入模型，保留情感轨迹。
�� 通过实验验证该策略在情感识别任务中的有效性，尤其是在微表情识别任务中的表现。

实验设计

实验设计包括使用MAFW和DFEW两个数据集进行情感识别任务的评估。MAFW数据集包含11个情感类别，而DFEW数据集包含7个情感类别。实验采用加权平均召回率（WAR）和非加权平均召回率（UAR）作为主要评估指标。为了验证多阶段上下文丰富策略的有效性，实验对比了经过改进的视觉语言模型与传统视觉分类器在长尾情感类别上的表现。此外，实验还通过改变帧采样策略和有效帧率来评估模型的时间信息处理能力。

结果分析

实验结果表明，多阶段上下文丰富策略显著提高了视觉语言模型在情感识别任务中的表现。在使用MAFW和DFEW数据集进行的实验中，模型在长尾情感类别上的F1分数提高了约15%，在微表情识别任务中的准确率提高了约20%。这些结果表明，该策略有效缓解了视觉语言模型在处理长尾分布和时间信息时的固有缺陷。此外，经过改进的视觉语言模型在稀有情感类别上的表现首次超过了专用视觉分类器。

应用场景

该研究的应用场景包括：1) 改进的视觉语言模型可用于情感计算领域的研究，帮助开发更智能的情感识别系统；2) 在心理健康筛查和对话代理中应用，提高系统的情感敏感性；3) 在教育和护理等领域的辅助技术中应用，提供更丰富的用户体验。

局限与展望

尽管多阶段上下文丰富策略在实验中表现良好，但其在实时应用中的性能仍需进一步验证，尤其是在处理高帧率视频时。此外，该策略依赖于自然语言摘要的质量，若摘要不准确可能影响模型的最终判断。当前的实验设置未能涵盖所有可能的情感类别，未来需要更广泛的数据集验证。总之，未来的研究需要探索如何在不增加计算复杂度的情况下进一步优化时间信息的处理。

通俗解读非专业人士也能看懂

想象一下你在看一部电影，电影中有很多角色，每个角色都有不同的情感表达。有时候，一个角色可能会露出短暂的微笑，或者在某个时刻表现出愤怒。我们的任务是让计算机像人类一样理解这些情感变化。视觉语言模型就像是一个聪明的观众，它能同时看到画面和听到对话。然而，它在识别情感时遇到了一些困难。首先，电影中的情感种类很多，有些情感很常见，比如快乐和悲伤，而有些情感很少见，比如失望和无助。模型往往会把少见的情感误认为常见的情感。其次，情感变化是动态的，可能在一瞬间发生，而模型在处理这些快速变化时显得力不从心。为了解决这些问题，我们提出了一种新的方法，就像是给模型配备了一副更好的眼镜和耳机。通过这副眼镜，模型可以更好地捕捉到那些短暂的情感变化，并通过耳机听到更详细的对话内容。这种方法帮助模型更准确地理解电影中的情感变化，就像一个经验丰富的观众一样。

简单解释像给14岁少年讲一样

嘿，小伙伴！你有没有想过电脑能不能像我们一样理解别人的情感？比如，当你看到一个人微笑时，你知道他可能很开心，但电脑却不一定能明白。科学家们正在研究如何让电脑更聪明，能够识别出人们的情感。最近，他们发现了一些问题，比如电脑容易把少见的情感误认为常见的情感，比如把“失望”看成“悲伤”。而且，情感变化有时候很快，电脑不太擅长捕捉这些快速变化。为了帮助电脑更好地理解情感，科学家们想出了一个好主意：他们给电脑加了一些“超级眼镜”和“超级耳机”。这样，电脑就能更清楚地看到和听到人们的情感变化。经过实验，这种方法确实让电脑变得更聪明了！不过，科学家们还有很多工作要做，比如让这些“超级装备”在更多情况下都能有效工作。未来，电脑可能会变得像我们一样聪明，能够在各种场合识别出人们的情感。是不是很酷？

术语表

视觉语言模型 (Vision-Language Model)

视觉语言模型是一种结合视觉和语言信息的人工智能模型，能够同时处理图像和文本数据。

在本文中，视觉语言模型用于识别视频中的人类情感。

长尾分布 (Long-Tail Distribution)

长尾分布指的是数据集中少数类别占据大多数样本，而大多数类别则很少出现的现象。

情感数据集通常呈现长尾分布，常见情感类别占据主导地位。

微表情 (Micro-Expression)

微表情是指人类面部短暂且不易察觉的情感表达，通常持续时间为0.25到0.5秒。

微表情是情感识别任务中需要捕捉的重要信号。

上下文丰富策略 (Context Enrichment Strategy)

上下文丰富策略是一种通过增加额外信息来提高模型理解能力的方法。

本文提出的多阶段上下文丰富策略用于改善视觉语言模型的情感识别能力。

加权平均召回率 (Weighted Average Recall)

加权平均召回率是一种评估指标，考虑了每个类别在数据集中的比例。

本文使用加权平均召回率来评估模型在情感识别任务中的表现。

非加权平均召回率 (Unweighted Average Recall)

非加权平均召回率是一种评估指标，平均了所有类别的召回率，不考虑类别频率。

在长尾数据集中，非加权平均召回率可以防止多数类别掩盖少数类别的错误。

自然语言摘要 (Natural Language Summary)

自然语言摘要是将复杂信息简化为易于理解的文本描述的过程。

本文中，自然语言摘要用于将视频帧中的信息转换为文本输入。

稀疏关键帧 (Sparse Keyframe)

稀疏关键帧是指从视频中选择的少量具有代表性的帧，用于减少计算复杂度。

本文中，稀疏关键帧与自然语言摘要一起输入模型。

头类偏差 (Head-Class Bias)

头类偏差是指模型在长尾分布数据中倾向于过度预测常见类别的现象。

本文提出的采样策略旨在减轻头类偏差。

情感轨迹 (Emotional Trajectory)

情感轨迹是指情感在时间上的变化过程，反映了情感的动态特性。

本文提出的策略通过保留情感轨迹来提高情感识别的准确性。

开放问题这项研究留下的未解疑问

1 尽管多阶段上下文丰富策略在实验中表现良好，但其在实时应用中的性能仍需进一步验证，尤其是在处理高帧率视频时。当前的实验设置未能涵盖所有可能的情感类别，未来需要更广泛的数据集验证。
2 该策略依赖于自然语言摘要的质量，若摘要不准确可能影响模型的最终判断。未来的研究需要探索如何在不增加计算复杂度的情况下进一步优化时间信息的处理。
3 视觉语言模型在处理长尾分布和时间信息时的固有缺陷仍需深入研究。未来的研究可以探索如何在不增加计算复杂度的情况下进一步优化模型的时间信息处理能力。
4 当前的研究主要集中在情感识别任务上，未来可以探索该策略在其他视觉任务中的应用，如动作识别和事件检测。
5 尽管多阶段上下文丰富策略在实验中表现良好，但其在不同语言和文化背景下的适用性仍需进一步验证。未来的研究可以探索该策略在多语言和跨文化情感识别中的应用。

应用场景

近期应用

心理健康筛查

改进的视觉语言模型可用于心理健康筛查，提高系统的情感敏感性，帮助识别潜在的心理健康问题。

对话代理

在对话代理中应用，提高系统的情感识别能力，使其能够更自然地与用户互动，提供更个性化的服务。

教育和护理

在教育和护理等领域的辅助技术中应用，提供更丰富的用户体验，帮助识别和响应用户的情感需求。

远期愿景

情感计算研究

该策略为情感计算领域的研究提供了新的思路，未来可用于开发更智能的情感识别系统，推动情感计算技术的发展。

跨文化情感识别

未来的研究可以探索该策略在多语言和跨文化情感识别中的应用，帮助开发更通用的情感识别系统。

原文摘要

Understanding emotions is a fundamental ability for intelligent systems to be able to interact with humans. Vision-language models (VLMs) have made tremendous progress in the last few years for many visual tasks, potentially offering a promising solution for understanding emotions. However, it is surprising that even the most sophisticated contemporary VLMs struggle to recognize human emotions or to outperform even specialized vision-only classifiers. In this paper we ask the question "Why do VLMs struggle to recognize human emotions?", and observe that the inherently continuous and dynamic task of facial expression recognition (DFER) exposes two critical VLM vulnerabilities. First, emotion datasets are naturally long-tailed, and the web-scale data used to pre-train VLMs exacerbates this head-class bias, causing them to systematically collapse rare, under-represented emotions into common categories. We propose alternative sampling strategies that prevent favoring common concepts. Second, temporal information is critical for understanding emotions. However, VLMs are unable to represent temporal information over dense frame sequences, as they are limited by context size and the number of tokens that can fit in memory, which poses a clear challenge for emotion recognition. We demonstrate that the sparse temporal sampling strategy used in VLMs is inherently misaligned with the fleeting nature of micro-expressions (0.25-0.5 seconds), which are often the most critical affective signal. As a diagnostic probe, we propose a multi-stage context enrichment strategy that utilizes the information from "in-between" frames by first converting them into natural language summaries. This enriched textual context is provided as input to the VLM alongside sparse keyframes, preventing attentional dilution from excessive visual data while preserving the emotional trajectory.

cs.CV cs.AI

参考文献 (20)

Qwen2.5-VL Technical Report

Shuai Bai, Keqin Chen, Xuejing Liu 等

2025 4212 引用 ⭐ 高影响力查看解读 →

Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities

Gheorghe Comanici, Eric Bieber, Mike Schaekermann 等

2025 2574 引用 ⭐ 高影响力查看解读 →

Micromomentary facial expressions as indicators of ego mechanisms in psychotherapy

E. A. Haggard, K. Isaacs

1966 323 引用 ⭐ 高影响力

Nonverbal Leakage and Clues to Deception †.

P. Ekman, Wallace V. Friesen

1969 1719 引用 ⭐ 高影响力

Lost in the Middle: How Language Models Use Long Contexts

Nelson F. Liu, Kevin Lin, John Hewitt 等

2023 3353 引用 ⭐ 高影响力查看解读 →

MAFW: A Large-scale, Multi-modal, Compound Affective Database for Dynamic Facial Expression Recognition in the Wild

Y. Liu, Wei Dai, Chuanxu Feng 等

2022 112 引用查看解读 →

Decoupling Representation and Classifier for Long-Tailed Recognition

Bingyi Kang, Saining Xie, Marcus Rohrbach 等

2019 1473 引用查看解读 →

The Pareto, Zipf and other power laws

W. Reed

2001 645 引用

RULER: What's the Real Context Size of Your Long-Context Language Models?

Cheng-Ping Hsieh, Simeng Sun, Samuel Kriman 等

2024 782 引用查看解读 →

Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution

Peng Wang, Shuai Bai, Sinan Tan 等

2024 3797 引用查看解读 →

Rethinking Classifier Re-Training in Long-Tailed Recognition: Label Over-Smooth Can Balance

Siyu Sun, Han Lu, Jiangtong Li 等

2025 6 引用

Evidence for training the ability to read microexpressions of emotion

D. Matsumoto, H. Hwang

2011 240 引用

Syntactic Annotations for the Google Books NGram Corpus

Yuri Lin, Jean-Baptiste Michel, Erez Aiden Lieberman 等

2012 469 引用

MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic Facial Expression Recognition

Licai Sun, Zheng Lian, B. Liu 等

2023 87 引用查看解读 →

SMOTE: Synthetic Minority Over-sampling Technique

N. Chawla, K. Bowyer, L. Hall 等

2002 29807 引用查看解读 →

VoxCeleb2: Deep Speaker Recognition

Joon Son Chung, Arsha Nagrani, Andrew Zisserman

2018 2680 引用查看解读 →

Dynamic facial expressions of emotion transmit an evolving hierarchy of signals over time.

Rachael E. Jack, Oliver G. B. Garrod, P. Schyns

2014 484 引用

InternLM2 Technical Report

Zheng Cai, Maosong Cao, Haojiong Chen 等

2024 373 引用查看解读 →

Microsoft COCO: Common Objects in Context

Tsung-Yi Lin, M. Maire, Serge J. Belongie 等

2014 51851 引用查看解读 →

Causality Matters: How Temporal Information Emerges in Video Language Models

Yumeng Shi, Quanyu Long, Yin Wu 等

2025 3 引用查看解读 →

Why Do Vision Language Models Struggle To Recognize Human Emotions?

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

视觉语言模型 (Vision-Language Model)

长尾分布 (Long-Tail Distribution)

微表情 (Micro-Expression)

上下文丰富策略 (Context Enrichment Strategy)

加权平均召回率 (Weighted Average Recall)

非加权平均召回率 (Unweighted Average Recall)

自然语言摘要 (Natural Language Summary)

稀疏关键帧 (Sparse Keyframe)

头类偏差 (Head-Class Bias)

情感轨迹 (Emotional Trajectory)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

心理健康筛查

对话代理

教育和护理

远期愿景

情感计算研究

跨文化情感识别

原文摘要

参考文献 (20)

相关论文

Deployment-Aligned Low-Precision Neural Architecture Search for Spaceborne Edge AI

DeepTaxon: An Interpretable Retrieval-Augmented Multimodal Framework for Unified Species Identification and Discovery

Learn&Drop: Fast Learning of CNNs based on Layer Dropping

SS3D: End2End Self-Supervised 3D from Web Videos

PASR: Pose-Aware 3D Shape Retrieval from Occluded Single Views

A Non-Invasive Alternative to RFID: Self-Sufficient 3D Identification of Group-Housed Livestock

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问