SN-WER: Script-Normalized WER for Multi-Script Indic ASR Evaluation

TL;DR

提出脚本归一化的WER（SN-WER），在五种印地语系语言中通过转写减少多达12%的脚本偏差影响，提升多脚本ASR评估的准确性。

cs.CL 🔴 高级 2026-06-02 78 次浏览

Priyaranjan Pattnayak

多语种ASR 脚本归一化 WER评估多脚本语言鲁棒性分析

核心发现

方法论

本文提出一种无需训练的脚本归一化评分方法SN-WER，核心思想是将参考和识别结果转写为语言特定的规范脚本后再计算WER，从而减少脚本差异带来的误差膨胀。具体实现包括：• 利用确定性转写映射将多脚本输入转为统一脚本；• 采用Unicode归一化和标点、数字标准化处理；• 通过多种转写工具（如ICU、IAST、ITRANS）验证映射鲁棒性。评估中，作者在五个印地语系语言（如印地语、孟加拉语、泰米尔语、奥里雅语、古吉拉特语）使用FLEURS和Common Voice两个数据集，比较三种不同的ASR模型（如Whisper-large-v3、MMS、Whisper-small）表现。SN-WER在校准数据中最大减少了12%的模型差距，在噪声数据中减少幅度较小，验证其对脚本偏差的有效抑制，同时保持对真实识别错误的敏感性。通过控制性压力测试和词汇替换实验，进一步验证了其对脚本偏差的抑制效果和对语义错误的敏感性。该方法对转写工具、归一化策略表现出高度鲁棒，转写工具间 disagreement 低于0.002，归一化变化引起的偏差低于0.05，碰撞率低于0.1%。

关键结果

在FLEURS数据集上，SN-WER将模型间的脚本偏差引起的误差膨胀降低了最多12%，在Odisha（Common Voice）数据集上也达到了26%的减少，显示出其在多脚本、多资源条件下的适用性。具体而言，MMS模型在FLEURS上的WER为0.32，SN-WER为0.30，减少了5.4%；Whisper-large模型的WER为0.70，SN-WER为0.64，减少了8.0%；在Common Voice上，MMS模型的WER为0.46，SN-WER为0.36，减少了23%。这些结果表明，SN-WER在校准数据中显著缓解了脚本引起的误差膨胀，同时在噪声环境中，真实识别错误仍被有效捕捉。
在跨脚本扩展方面，作者在阿拉伯语和乌尔都语的FLEURS数据集上验证了方法的普适性，分别实现了4.9%到6.9%的误差减少，显示其在非印地语系多脚本语言中的适用潜力。压力测试中，将假设的50%词汇被随机转写，SN-WER仍能抑制约67%的脚本引起的误差膨胀，验证其在极端条件下的鲁棒性。词汇替换控制实验显示，SN-WER对语义错误的敏感性几乎与传统WER一致，比例约为1.09，确保其在真实识别错误检测中的有效性。
该方法在转写工具和归一化策略上的鲁棒性得到验证，转写工具间 disagreement 低于0.002，归一化变化引起的偏差低于0.05，碰撞率低于0.1%，极大增强了其在多脚本、多资源环境中的适用性。

研究意义

本研究提出的SN-WER为多脚本、多语言ASR系统提供了一个重要的评估工具，有助于客观衡量模型在跨脚本环境中的实际识别能力。传统的WER在多脚本场景中容易受到脚本差异的干扰，导致误判模型性能，影响模型优化和比较。通过引入脚本归一化，SN-WER有效剥离了脚本差异带来的误差膨胀，为多语种、多脚本系统的公平评估提供了技术支撑。这不仅有助于推动多语种ASR模型的研发，也为多模态、多任务的自然语言处理和信息检索提供了更可靠的评估标准。未来，SN-WER还可以扩展到代码切换、多语种混合场景，促进多语言模型的公平性和鲁棒性提升。

技术贡献

本文的核心技术创新在于提出一种无需训练的脚本归一化评分机制，结合确定性转写映射和多工具融合策略，显著降低多脚本环境下的误差膨胀。该方法在保持对真实语义错误敏感的同时，有效抑制了由脚本差异引起的表面误差。相比传统的字面WER和字级CER，SN-WER提供了更具诊断性的脚本偏差定量指标，为多语种ASR模型的公平评估提供了新工具。其在多脚本、多资源、多模型条件下的鲁棒性验证，展示了其在实际应用中的潜力。该方法还为未来多脚本、多语言评估指标的设计提供了理论基础和实践经验。

新颖性

本研究的创新点在于首次提出一种纯评估的脚本归一化方法，专门针对多脚本、多语种环境中的ASR性能评估问题。不同于以往的转写优化方法（如toWER），SN-WER无需模型训练或解码调整，直接在评估阶段进行脚本标准化，极大简化了流程。其系统性验证了在五个印地语系语言、两份数据集和三种模型上的有效性，特别是在噪声环境和极端压力测试中表现出优越的鲁棒性。该方法不仅解决了多脚本环境中的误差膨胀问题，也为多语种、多脚本模型的公平比较奠定了基础。

局限性

虽然SN-WER在多脚本环境中表现优异，但其依赖于确定性转写映射的准确性，映射错误可能引入偏差，尤其在低资源或未覆盖的脚本中效果有限。
该方法主要针对单一脚本归一化，对于多脚本混合或动态切换场景的适应性仍需验证，未来需结合上下文信息进行优化。
在极端噪声或拼写变异极大的条件下，脚本归一化可能会误将语义相近但拼写不同的词归为同一类，影响识别敏感度。

未来方向

未来，作者计划扩展SN-WER到多语种混合场景，包括代码切换和多模态输入，提升其在真实复杂环境中的适应性。同时，将结合上下文信息优化转写映射，增强对拼写变异和噪声的鲁棒性。此外，研究还将探索将SN-WER融入模型训练过程中，实现模型的脚本不敏感性，从而推动多语种多脚本ASR系统的公平性和性能提升。最后，期待将该方法应用于多模态搜索、信息检索和多语种对话系统，为多语言自然语言处理提供更科学的评估标准。

AI 总览摘要

在全球化和多语言环境中，自动语音识别（ASR）系统的性能评估面临多脚本、多语种的挑战。传统的Word Error Rate（WER）作为主流指标，虽然在单一脚本环境中表现优异，但在多脚本、多语言场景下容易受到脚本差异的干扰，导致误判模型的实际能力。尤其是在印地语系语言中，模型可能输出拉丁字母拼写（romanization），而参考文本采用本土脚本，造成表面上的高误差率，掩盖了模型的真实识别能力。为解决这一问题，本文提出了脚本归一化的WER（SN-WER）方法，通过将参考和识别结果转写为语言特定的规范脚本，显著减少脚本差异带来的误差膨胀，提升评估的公平性和准确性。

该方法无需模型训练或解码调整，纯粹在评估阶段操作，极大简化了流程。作者在五个印地语系语言（如印地语、孟加拉语、泰米尔语、奥里雅语、古吉拉特语）上进行了系统验证，使用两个公开数据集（FLEURS和Common Voice）以及三种不同的ASR模型（如Whisper-large-v3、MMS、Whisper-small），展示了SN-WER在校准数据中最大减少了12%的模型间差距，在噪声环境中也能有效揭示模型的真实弱点。压力测试和词汇替换实验进一步验证了其在极端条件下的鲁棒性和对语义错误的敏感性。

此外，作者还将SN-WER扩展到阿拉伯语和乌尔都语，验证其跨语系的适用性，结果显示在这些语言中也能实现4.9%到9%的误差减少。通过对转写工具、归一化策略的多角度验证，发现其 disagreement 低于0.002，偏差低于0.05，碰撞率低于0.1%，证明了其在多脚本、多资源环境中的稳定性和可靠性。

综上所述，SN-WER为多语种、多脚本ASR系统提供了一个重要的评估工具，有助于客观衡量模型在实际多语言环境中的表现。该方法不仅缓解了脚本差异带来的误差膨胀，还为未来多脚本、多语种模型的公平性和鲁棒性提升提供了技术基础。未来，作者计划将其扩展到代码切换、多模态输入等更复杂场景，推动多语言自然语言处理的发展。

深度解读

原文摘要

Word Error Rate (WER) is the dominant metric for automatic speech recognition (ASR), but it can overestimate errors when references and hypotheses encode the same words in different scripts. This issue is common in multilingual settings where ASR models may emit romanized text. We propose Script-Normalized WER (SN-WER), a training-free, evaluation-only scoring method that transliterates both reference and hypothesis text into a language-specific canonical script before computing WER. We evaluate SN-WER on 5 Indic languages, 2 datasets, and 3 ASR models. On curated FLEURS data, SN-WER reduces inflated model gaps by up to 12%, while on noisier Common Voice data the reductions are smaller or inconsistent, indicating genuine recognition weaknesses rather than only script mismatch. Controlled stress tests show a 67% attenuation of artificial romanization-induced WER inflation, while lexical-substitution controls show near-identical sensitivity to semantic errors, with Delta SN-WER / Delta WER approximately 1.09. SN-WER is robust to transliterator choice, normalization changes, and shows low token-collision rates below 0.1% in the evaluated Indic setting. We argue that SN-WER should be reported alongside WER and CER as a companion metric for script-insensitive ASR evaluation, especially when transcripts feed downstream search, indexing, or multilingual LLM pipelines.

cs.CL

参考文献 (11)

Common Voice: A Massively-Multilingual Speech Corpus

Rosana Ardila, Megan Branson, Kelly Davis 等

2019 2378 引用 ⭐ 高影响力查看解读 →

FLEURS: FEW-Shot Learning Evaluation of Universal Representations of Speech

Alexis Conneau, Min Ma, Simran Khanuja 等

2022 598 引用 ⭐ 高影响力查看解读 →

Lenient Evaluation of Japanese Speech Recognition: Modeling Naturally Occurring Spelling Inconsistency

Shigeki Karita, R. Sproat, Haruko Ishikawa

2023 10 引用查看解读 →

WERD: Using social text spelling variants for evaluating dialectal speech recognition

Ahmed M. Ali, Preslav Nakov, P. Bell 等

2017 17 引用查看解读 →

What is lost in Normalization? Exploring Pitfalls in Multilingual ASR Model Evaluations

Kavya Manohar, L. G. Pillai

2024 13 引用查看解读 →

From WER and RIL to MER and WIL: improved evaluation measures for connected speech recognition

A. Morris, V. Maier, P. Green

2004 340 引用

Advocating Character Error Rate for Multilingual ASR Evaluation

T. K, Jesin James, D. Gopinath 等

2024 36 引用查看解读 →

Transliteration Based Approaches to Improve Code-Switched Speech Recognition Performance

Jesse Emond, B. Ramabhadran, Brian Roark 等

2018 37 引用

Language (Technology) is Power: A Critical Survey of “Bias” in NLP

Su Lin Blodgett, Solon Barocas, Hal Daum'e 等

2020 1683 引用查看解读 →

WER We Stand: Benchmarking Urdu ASR Models

Samee Arif, A. Khan, Mustafa Abbas 等

2024 13 引用查看解读 →

Multi-reference WER for evaluating ASR for languages with no orthographic rules

Ahmed M. Ali, Walid Magdy, P. Bell 等

2015 24 引用

SN-WER: Script-Normalized WER for Multi-Script Indic ASR Evaluation

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度解读

原文摘要

参考文献 (11)

相关论文

The Register Gap: A Meaning Intelligence Framework for Nigerian Public Discourse

Learning User Simulators with Turing Rewards

RubricsTree: Scalable and Evolving Open-Ended Evaluation of Personal Health Agents across Health Memory and Medical Skills

Benchmarking LLM Agents on Meta-Analysis Articles from Nature Portfolio

Characterizing Cultural Localization in AI-Generated Stories

Operads for compositional reasoning in LLMs