Do What I Say: A Spoken Prompt Dataset for Instruction-Following

TL;DR

引入DOWIS数据集，评估语音大语言模型在多语言环境下的指令跟随能力，发现文本提示优于语音提示。

cs.CL 🔴 高级 2026-03-11 13 次浏览

Maike Züfle Sara Papi Fabian Retkowski Szymon Mazurek Marek Kasztelnik Alexander Waibel Luisa Bentivogli Jan Niehues

语音大语言模型多语言数据集指令跟随语音评估

核心发现

方法论

本文引入了DOWIS数据集，这是一个多语言的语音和文本提示数据集，用于评估语音大语言模型（SLLMs）在指令跟随任务中的表现。DOWIS包含九个任务和十一种语言，每个任务-语言对有十种提示变体，涵盖五种风格。研究分析了提示的模态、风格、语言和任务类型之间的相互作用。

关键结果

结果1：文本提示在低资源和跨语言环境中表现优于语音提示，特别是在文本输出任务中，文本提示的表现显著优于语音提示。
结果2：在需要语音输出的任务中，如文本到语音合成和语音到语音翻译，语音提示的表现与文本提示相当，甚至更好。
结果3：非正式的文本和语音指令在各个任务中表现较差，表明多样化的提示风格对于模型评估至关重要。

研究意义

DOWIS数据集的引入填补了当前语音大语言模型评估中的空白，提供了一种更真实和全面的评估方式。通过分析不同提示模态和风格的影响，研究揭示了当前模型在处理语音指令时的不足之处，并强调了在模型开发中考虑多样化提示的重要性。这一研究为未来的模型改进和评估提供了重要的基础。

技术贡献

本文的技术贡献在于首次提供了一个多语言的语音和文本提示数据集，能够与现有的任务基准结合使用，降低了语音指令跟随评估的门槛。研究中使用的Phi-4 Multimodal和Qwen2.5-Omni模型展示了在不同提示条件下的性能差异，为未来模型的改进提供了方向。

新颖性

DOWIS是首个由母语者编写和录制的多语言平行语音和文本提示数据集，与现有的基准不同，DOWIS将指令与任务输入分离，能够与任何现有的基准结合使用，提供了更自然和多样化的语言评估。

局限性

局限1：在低资源和跨语言环境中，语音提示的表现仍然不如文本提示，表明模型在处理语音指令时存在困难。
局限2：非正式提示在各个任务中的表现较差，可能是由于其更口语化的性质。
局限3：模型在处理不同性别的语音提示时表现出偏好，可能反映了模型中的性别偏见。

未来方向

未来研究可以探索如何改进模型在语音指令下的表现，特别是在低资源和跨语言环境中。此外，研究可以进一步分析不同提示风格和性别对模型性能的影响，以减少模型的偏见。

AI 总览摘要

近年来，语音大语言模型（SLLMs）在支持多种任务方面取得了显著进展。然而，这些模型通常使用文本提示进行评估，这可能无法反映用户通过语音进行交互的真实场景。为了解决这一问题，本文引入了DOWIS，一个多语言的人类录制的语音和文本提示数据集，旨在与任何现有基准配对，以在语音指令条件下对SLLMs进行更真实的评估。DOWIS涵盖了九个任务和十一种语言，每个任务-语言对有十种提示变体，跨越五种风格。使用DOWIS，我们对最先进的SLLMs进行了基准测试，分析了提示模态、风格、语言和任务类型之间的相互作用。结果显示，文本提示在低资源和跨语言环境中表现优于语音提示，特别是在文本输出任务中，文本提示的表现显著优于语音提示。仅在需要语音输出的任务中，语音提示才缩小了差距，突显了在SLLM评估中基于语音提示的必要性。DOWIS数据集的引入填补了当前语音大语言模型评估中的空白，提供了一种更真实和全面的评估方式。通过分析不同提示模态和风格的影响，研究揭示了当前模型在处理语音指令时的不足之处，并强调了在模型开发中考虑多样化提示的重要性。这一研究为未来的模型改进和评估提供了重要的基础。本文的技术贡献在于首次提供了一个多语言的语音和文本提示数据集，能够与现有的任务基准结合使用，降低了语音指令跟随评估的门槛。研究中使用的Phi-4 Multimodal和Qwen2.5-Omni模型展示了在不同提示条件下的性能差异，为未来模型的改进提供了方向。DOWIS是首个由母语者编写和录制的多语言平行语音和文本提示数据集，与现有的基准不同，DOWIS将指令与任务输入分离，能够与任何现有的基准结合使用，提供了更自然和多样化的语言评估。未来研究可以探索如何改进模型在语音指令下的表现，特别是在低资源和跨语言环境中。此外，研究可以进一步分析不同提示风格和性别对模型性能的影响，以减少模型的偏见。

深度分析

研究背景

语音大语言模型（SLLMs）近年来在自然语言处理领域取得了显著进展。这些模型能够处理语音和文本任务，展现出强大的指令跟随能力。然而，当前的评估方法主要依赖于文本提示，这与用户在实际场景中通过语音进行交互的方式不符。现有的语音指令跟随基准，如SpeechInstructBench和Uro-Bench，存在一些局限性，例如仅支持英语和中文，且指令是通过文本转语音系统生成的，无法与其他数据集重用。此外，这些基准主要关注一般的指令跟随和推理任务，而研究人员还需要评估特定任务的语音指令跟随能力，如语音识别或音频章节生成。

核心问题

当前的语音大语言模型评估方法主要依赖于文本提示，这与用户在实际场景中通过语音进行交互的方式不符。为了实现更自然的人机交互，评估模型在语音指令下的表现至关重要。然而，现有的语音指令评估基准存在语言和任务的局限性，无法全面反映模型的能力。

核心创新

本文提出了DOWIS数据集，这是首个多语言的语音和文本提示数据集，能够与现有的任务基准结合使用。DOWIS包含九个任务和十一种语言，每个任务-语言对有十种提示变体，涵盖五种风格。与现有基准不同，DOWIS将指令与任务输入分离，能够与任何现有的基准结合使用，提供了更自然和多样化的语言评估。

方法详解

�� DOWIS数据集的构建：收集九个任务的英语提示，并翻译成十种语言。 • 语音录制：由母语者使用手机或电脑录制提示，模拟真实场景。 • 数据集统计：DOWIS包含3小时17分钟的音频，涵盖九个任务和十一种语言。 • 模型评估：使用Phi-4 Multimodal和Qwen2.5-Omni模型进行基准测试，分析提示模态、风格、语言和任务类型之间的相互作用。

实验设计

实验设计包括使用DOWIS数据集对Phi-4 Multimodal和Qwen2.5-Omni模型进行评估。评估任务包括自动语音识别、文本到语音合成、语音翻译、机器翻译、语音到语音翻译、语音总结、文本总结、音频章节生成和语音问答。实验使用多种数据集进行评估，如FLEURS和MCIF，并使用多种指标进行性能评估，如词错误率（WER）、BERTScore和CometKiwi。

结果分析

实验结果显示，文本提示在低资源和跨语言环境中表现优于语音提示，特别是在文本输出任务中，文本提示的表现显著优于语音提示。仅在需要语音输出的任务中，语音提示才缩小了差距。此外，非正式的文本和语音指令在各个任务中表现较差，表明多样化的提示风格对于模型评估至关重要。

应用场景

DOWIS数据集可以用于评估语音大语言模型在多语言环境下的指令跟随能力，为模型开发者提供更全面的评估工具。该数据集还可以帮助研究人员分析不同提示模态和风格对模型性能的影响，推动模型的改进和优化。

局限与展望

尽管DOWIS数据集提供了多语言的语音和文本提示，但在低资源和跨语言环境中，语音提示的表现仍然不如文本提示。此外，模型在处理不同性别的语音提示时表现出偏好，可能反映了模型中的性别偏见。未来研究可以探索如何改进模型在语音指令下的表现，特别是在低资源和跨语言环境中。

通俗解读非专业人士也能看懂

想象一下，你在一个国际会议上，想要一个翻译助手来帮助你理解不同语言的发言者。传统的翻译助手可能只支持文本输入，这意味着你需要手动输入每个发言者的讲话内容，这既耗时又不方便。DOWIS数据集就像是一个多语言的语音助手，它能够理解和处理来自不同语言的语音指令。通过这个数据集，研究人员可以评估和改进语音助手的性能，使其能够更自然地理解和响应语音指令。这就像是给你的翻译助手配备了一个超级大脑，使其能够更快速、准确地翻译不同语言的讲话内容。

简单解释像给14岁少年讲一样

嘿，小伙伴们！想象一下你在玩一个超级酷的游戏，这个游戏能听懂你说的话，并根据你的指令做出反应。是不是很神奇？不过，很多时候这些游戏只能理解文字指令，而不是语音指令。这就像你想让你的宠物狗听懂你的命令，但它只能看懂你写的字条。为了让这些游戏更智能，科学家们开发了一个叫做DOWIS的数据集。这个数据集就像是一个超级训练营，帮助游戏学习如何理解不同语言的语音指令。通过这个训练营，游戏可以变得更聪明，能够理解你用不同语言说出的命令。这就像是给你的游戏角色装上了一个超级大脑，让它能更好地理解和响应你的语音指令。是不是很酷？

术语表

语音大语言模型 (SLLMs)

一种能够处理语音和文本任务的模型，展现出强大的指令跟随能力。

本文中用于评估在多语言环境下的指令跟随能力。

DOWIS数据集

一个多语言的语音和文本提示数据集，用于评估语音大语言模型在指令跟随任务中的表现。

本文中引入的新数据集，用于填补当前评估方法的空白。

Phi-4 Multimodal

一种用于评估语音和文本任务的最先进模型之一。

本文中用于基准测试的模型之一。

Qwen2.5-Omni

一种用于评估语音和文本任务的最先进模型之一。

本文中用于基准测试的模型之一。

文本提示

用于指示模型执行特定任务的文本指令。

本文中用于与语音提示进行性能对比。

语音提示

用于指示模型执行特定任务的语音指令。

本文中用于与文本提示进行性能对比。

词错误率 (WER)

一种用于评估语音识别性能的指标，表示识别错误的比例。

本文中用于评估自动语音识别任务的性能。

BERTScore

一种用于评估文本生成质量的指标，基于BERT模型计算生成文本与参考文本的相似度。

本文中用于评估文本生成任务的性能。

CometKiwi

一种用于评估翻译质量的指标，不需要参考翻译，能够与人类评价高度相关。

本文中用于评估机器翻译和语音翻译任务的性能。

MCIF

一种多模态跨语言指令跟随基准，提供用于评估的文本和语音问答数据。

本文中用于评估语音问答任务的基准。

开放问题这项研究留下的未解疑问

1 如何改进模型在低资源和跨语言环境下的语音指令跟随能力？当前方法在这些环境中表现不佳，需要更有效的策略来提高模型的泛化能力。
2 如何减少模型在处理不同性别语音提示时的偏见？研究表明，模型对不同性别的语音提示表现出偏好，需要进一步研究以减少这种偏见。
3 如何更好地处理非正式提示？非正式提示在各个任务中表现较差，可能是由于其更口语化的性质，需要更好的方法来处理这种提示。
4 如何在不增加计算成本的情况下提高模型的语音指令跟随能力？当前方法在处理语音指令时可能需要更多的计算资源。
5 如何在多语言环境中提高模型的鲁棒性？当前模型在处理多语言任务时可能会遇到困难，需要更强大的模型来提高鲁棒性。

应用场景

近期应用

多语言语音助手

DOWIS数据集可以用于训练和评估多语言语音助手，使其能够更自然地理解和响应语音指令。

跨语言翻译工具

该数据集可以帮助开发更智能的翻译工具，能够处理来自不同语言的语音输入。

语音识别系统

通过DOWIS数据集，研究人员可以改进语音识别系统的性能，特别是在多语言环境中。

远期愿景

智能会议助手

未来，DOWIS数据集可以用于开发智能会议助手，能够实时翻译和总结会议内容。

全球化人机交互

DOWIS数据集的应用可以推动全球化人机交互的发展，使不同语言的用户能够更自然地与技术进行互动。

原文摘要

Speech Large Language Models (SLLMs) have rapidly expanded, supporting a wide range of tasks. These models are typically evaluated using text prompts, which may not reflect real-world scenarios where users interact with speech. To address this gap, we introduce DoWhatISay (DOWIS), a multilingual dataset of human-recorded spoken and written prompts designed to pair with any existing benchmark for realistic evaluation of SLLMs under spoken instruction conditions. Spanning 9 tasks and 11 languages, it provides 10 prompt variants per task-language pair, across five styles. Using DOWIS, we benchmark state-of-the-art SLLMs, analyzing the interplay between prompt modality, style, language, and task type. Results show that text prompts consistently outperform spoken prompts, particularly for low-resource and cross-lingual settings. Only for tasks with speech output, spoken prompts do close the gap, highlighting the need for speech-based prompting in SLLM evaluation.

cs.CL

参考文献 (20)

SAKURA: On the Multi-hop Reasoning of Large Audio-Language Models Based on Speech and Audio Information

Chih-Kai Yang, Neo Ho, Yen-Ting Piao 等

2025 22 引用 ⭐ 高影响力查看解读 →

SALMONN: Towards Generic Hearing Abilities for Large Language Models

Changli Tang, Wenyi Yu, Guangzhi Sun 等

2023 487 引用 ⭐ 高影响力查看解读 →

SIFT-50M: A Large-Scale Multilingual Dataset for Speech Instruction Fine-Tuning

Prabhat Pandey, R. Swaminathan, Vijay Girish 等

2025 9 引用 ⭐ 高影响力查看解读 →

MMSU: A Massive Multi-task Spoken Language Understanding and Reasoning Benchmark

Dingdong Wang, Jincenzi Wu, Junan Li 等

2025 42 引用 ⭐ 高影响力查看解读 →

PandaGPT: One Model To Instruction-Follow Them All

Yixuan Su, Tian Lan, Huayang Li 等

2023 406 引用 ⭐ 高影响力查看解读 →

MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks

Sara Papi, Maike Zufle, Marco Gaido 等

2025 6 引用 ⭐ 高影响力查看解读 →

Language Models are Few-Shot Learners

Tom B. Brown, Benjamin Mann, Nick Ryder 等

2020 55138 引用 ⭐ 高影响力查看解读 →

AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension

Qian Yang, Jin Xu, Wenrui Liu 等

2024 195 引用 ⭐ 高影响力查看解读 →

Benchmarking Open-ended Audio Dialogue Understanding for Large Audio-Language Models

Kuofeng Gao, Shu-Tao Xia, Ke Xu 等

2024 26 引用 ⭐ 高影响力查看解读 →

Twists, Humps, and Pebbles: Multilingual Speech Recognition Models Exhibit Gender Performance Gaps

Giuseppe Attanasio, Beatrice Savoldi, Dennis Fucci 等

2024 17 引用查看解读 →

From WER and RIL to MER and WIL: improved evaluation measures for connected speech recognition

A. Morris, V. Maier, P. Green

2004 314 引用

From Text Segmentation to Smart Chaptering: A Novel Benchmark for Structuring Video Transcriptions

Fabian Retkowski, Alexander Waibel

2024 19 引用查看解读 →

Are LLMs Breaking MT Metrics? Results of the WMT24 Metrics Shared Task

Markus Freitag, Nitika Mathur, Daniel Deutsch 等

2024 83 引用

Robust Speech Recognition via Large-Scale Weak Supervision

Alec Radford, Jong Wook Kim, Tao Xu 等

2022 6301 引用查看解读 →

URO-Bench: Towards Comprehensive Evaluation for End-to-End Spoken Dialogue Models

Ruiqi Yan, Xiquan Li, Wenxi Chen 等

2025 8 引用查看解读 →

On The Landscape of Spoken Language Models: A Comprehensive Survey

Siddhant Arora, Kai-Wei Chang, Chung-Ming Chien 等

2025 86 引用查看解读 →

Hearing to Translate: The Effectiveness of Speech Modality Integration into LLMs

Sara Papi, Javier García Gilabert, Zachary Hopton 等

2025 2 引用查看解读 →

Phi-4-Mini Technical Report: Compact yet Powerful Multimodal Language Models via Mixture-of-LoRAs

Abdelrahman Abouelenin, Atabak Ashfaq, Adam Atkinson 等

2025 342 引用查看解读 →

VoiceBench: Benchmarking LLM-Based Voice Assistants

Yiming Chen, Xianghu Yue, Chen Zhang 等

2024 131 引用查看解读 →

FLEURS: FEW-Shot Learning Evaluation of Universal Representations of Speech

Alexis Conneau, Min Ma, Simran Khanuja 等

2022 515 引用查看解读 →

Do What I Say: A Spoken Prompt Dataset for Instruction-Following

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

语音大语言模型 (SLLMs)

DOWIS数据集

Phi-4 Multimodal

Qwen2.5-Omni

文本提示

语音提示

词错误率 (WER)

BERTScore

CometKiwi

MCIF

开放问题 这项研究留下的未解疑问

应用场景

近期应用

多语言语音助手

跨语言翻译工具

语音识别系统

远期愿景

智能会议助手

全球化人机交互

原文摘要

参考文献 (20)

相关论文

Neuron-Aware Data Selection In Instruction Tuning For Large Language Models

ESG-Bench: Benchmarking Long-Context ESG Reports for Hallucination Mitigation

Mending the Holes: Mitigating Reward Hacking in Reinforcement Learning for Multilingual Translation

Interpretable Semantic Gradients in SSD: A PCA Sweep Approach and a Case Study on AI Discourse

Long-form RewardBench: Evaluating Reward Models for Long-form Generation

HMS-BERT: Hybrid Multi-Task Self-Training for Multilingual and Multi-Label Cyberbullying Detection

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问