Mending the Holes: Mitigating Reward Hacking in Reinforcement Learning for Multilingual Translation

TL;DR

WALAR方法利用单语数据提升低资源语言翻译能力，超越LLaMAX模型。

cs.CL 🔴 高级 2026-03-13 1 次浏览

Yifeng Liu Siqi Ouyang Yatish Hosmane Revanasiddappa Lei Li

强化学习多语言翻译奖励黑客低资源语言大语言模型

核心发现

方法论

本文提出了一种名为WALAR的强化学习方法，专注于利用单语文本提升大语言模型在低资源语言翻译中的表现。WALAR通过引入词对齐和语言对齐技术，解决了现有质量估计模型中的失败模式（即“漏洞”），避免了奖励黑客问题。该方法在GRPO训练框架下进行后训练，使用Qwen3-8B、LLaMAX3-8B-Alpaca和Translategemma-4B-it等模型进行实验。

关键结果

结果1：在Flores-101数据集的1414种语言方向上，WALAR训练的模型在spBLEU上表现出显著提升，LLaMAX3-8B-Alpaca模型在Swahili-X翻译中从54.00提高到60.31。
结果2：在xCOMET*评分中，LLaMAX3-8B-Alpaca+WALAR模型的平均得分从64.97提高到71.34，显示出在多语言翻译中的显著改进。
结果3：通过消融实验，验证了词对齐和语言对齐在奖励信号中的重要性，特别是在低资源语言方向上表现出色。

研究意义

该研究通过利用单语数据，突破了低资源语言翻译中对高质量平行数据的依赖，显著提升了多语言翻译模型的性能。WALAR方法不仅在学术界具有重要意义，为低资源语言的翻译提供了新的解决方案，同时在工业界也具有潜在的应用价值，能够帮助开发更高效的多语言翻译系统。

技术贡献

技术贡献包括：1）提出了一种新的奖励信号设计，结合了质量估计、词对齐和语言对齐，避免了奖励黑客问题；2）在GRPO框架下实现了有效的后训练策略，显著提升了多语言翻译模型的性能；3）为低资源语言翻译提供了一种无需平行数据的解决方案，拓展了大语言模型的应用范围。

新颖性

WALAR方法是首个利用单语数据通过强化学习提升低资源语言翻译性能的方法。相比于现有的依赖平行数据的后训练策略，WALAR通过创新的奖励信号设计，解决了质量估计模型中的漏洞问题，提供了一种更为普适的解决方案。

局限性

局限1：WALAR方法在某些极低资源语言上可能仍然面临挑战，因为这些语言的单语数据也可能稀缺。
局限2：虽然WALAR在实验中表现出色，但其训练过程需要大量计算资源，可能限制了其在资源有限的环境中的应用。
局限3：该方法的性能在很大程度上依赖于所使用的质量估计模型的准确性，若质量估计模型存在偏差，可能影响最终结果。

未来方向

未来的研究方向包括：1）探索如何在更低资源的环境中进一步提升WALAR的性能；2）开发更高效的质量估计模型，以提高奖励信号的准确性；3）将WALAR方法应用于其他自然语言处理任务，如文本生成和对话系统，以验证其广泛适用性。

AI 总览摘要

近年来，大语言模型（LLMs）在高资源语言对的机器翻译中展现了卓越的能力。然而，对于低资源语言的翻译，其表现仍然显著落后。现有的后训练方法主要依赖于高质量的平行数据，这些数据在低资源语言中往往稀缺或不可用。

本文提出了一种名为WALAR的强化学习方法，通过仅使用单语文本，提升LLMs在大规模低资源语言翻译中的能力，同时保持其在高资源语言上的性能。WALAR的核心思想是观察到现有基于源的多语言质量估计（QE）模型中的失败模式（即“漏洞”）。使用这些QE模型进行强化学习往往会放大这些漏洞，导致多语言LLMs表现不佳。

为了解决这一问题，WALAR方法开发了包括词对齐和语言对齐在内的技术，以减轻这些漏洞在RL训练中的奖励信号中的影响。我们在支持101种语言翻译的LLMs上持续训练，实验结果表明，我们的新模型在Flores-101数据集的1414种语言方向上，以较大优势超越了LLaMAX这一最强的开源多语言LLM之一。

在实验中，WALAR方法在多种评估指标上表现出色，特别是在低资源语言方向上，显著提升了翻译质量。通过消融实验，我们验证了词对齐和语言对齐在奖励信号中的重要性，尤其是在避免奖励黑客问题方面发挥了关键作用。

WALAR方法的提出，不仅在学术界具有重要意义，为低资源语言的翻译提供了新的解决方案，同时在工业界也具有潜在的应用价值，能够帮助开发更高效的多语言翻译系统。然而，该方法在某些极低资源语言上可能仍然面临挑战，因为这些语言的单语数据也可能稀缺。此外，虽然WALAR在实验中表现出色，但其训练过程需要大量计算资源，可能限制了其在资源有限的环境中的应用。未来的研究方向包括探索如何在更低资源的环境中进一步提升WALAR的性能，以及开发更高效的质量估计模型，以提高奖励信号的准确性。

深度分析

研究背景

近年来，随着大语言模型（LLMs）的发展，机器翻译技术取得了显著进展，特别是在高资源语言对的翻译中。然而，对于低资源语言，翻译质量仍然不尽如人意。传统的方法主要依赖于高质量的平行数据进行后训练，如监督微调、知识蒸馏和反向翻译等。然而，这些方法在低资源或零资源语言中效果有限，因为这些语言缺乏大量的高质量平行数据。为了克服这一挑战，研究者们开始探索利用单语数据提升翻译性能的方法。

核心问题

低资源语言翻译的核心问题在于缺乏高质量的平行数据，这使得传统的后训练方法难以奏效。现有的质量估计模型在评估翻译质量时存在漏洞，导致在强化学习中可能出现奖励黑客问题，即模型通过重复输入源句来获得高分。这不仅影响了翻译质量，还限制了模型的泛化能力。

核心创新

WALAR方法的核心创新在于：1）利用单语数据进行强化学习，避免了对平行数据的依赖；2）引入词对齐和语言对齐技术，解决了质量估计模型中的漏洞问题；3）在GRPO框架下实现了有效的后训练策略，显著提升了多语言翻译模型的性能。

方法详解

�� 使用单语数据进行强化学习，避免对平行数据的依赖。
�� 引入词对齐技术，确保目标句中所有词语的正确覆盖，避免过度翻译和遗漏。
�� 引入语言对齐技术，确保生成的翻译符合预期的目标语言。
�� 在GRPO框架下进行后训练，优化模型的翻译性能。

实验设计

实验设计包括在Flores-101数据集上进行测试，涵盖1414种语言方向。我们使用spBLEU、xCOMET*和MetricX*等指标评估翻译质量，并进行消融实验验证词对齐和语言对齐的效果。实验中，我们对比了多种基线模型，包括LLaMAX3-8B-Alpaca、Qwen3-8B和Translategemma-4B-it等。

结果分析

实验结果显示，WALAR方法在多种评估指标上表现出色，特别是在低资源语言方向上，显著提升了翻译质量。LLaMAX3-8B-Alpaca模型在Swahili-X翻译中从54.00提高到60.31，显示出在多语言翻译中的显著改进。

应用场景

WALAR方法可直接应用于多语言翻译系统，特别是低资源语言的翻译。其无需平行数据的特性，使其在数据稀缺的环境中具有显著优势，能够帮助开发更高效的翻译系统。

局限与展望

WALAR方法在某些极低资源语言上可能仍然面临挑战，因为这些语言的单语数据也可能稀缺。此外，虽然WALAR在实验中表现出色，但其训练过程需要大量计算资源，可能限制了其在资源有限的环境中的应用。未来的研究方向包括探索如何在更低资源的环境中进一步提升WALAR的性能，以及开发更高效的质量估计模型，以提高奖励信号的准确性。

通俗解读非专业人士也能看懂

想象你在厨房里做饭。你有一个食谱（大语言模型），它告诉你如何做一道菜（翻译）。对于一些常见的食材（高资源语言），你有详细的步骤和配料表（平行数据），所以你可以很轻松地做出美味的菜肴。但是，对于一些不常见的食材（低资源语言），你没有详细的配料表，只能凭借经验和直觉（单语数据）来做菜。

WALAR方法就像是一个聪明的助手，它帮助你在没有详细配料表的情况下，依然能够做出美味的菜肴。它通过观察你做菜的过程（质量估计模型），找出你可能犯的错误（漏洞），并给你一些建议（奖励信号），比如“多加点盐”或“少放点油”。

这个助手还会提醒你要用正确的食材（语言对齐），确保你做出的菜肴符合预期的口味（目标语言）。通过这种方式，即使在没有详细配料表的情况下，你也能做出美味的菜肴，提升你的厨艺（翻译能力）。

简单解释像给14岁少年讲一样

嘿，小伙伴们！想象一下你在玩一个超级酷的翻译游戏。你有一个超级智能的机器人助手，它能帮你把一种语言翻译成另一种语言。对于一些常见的语言，比如英语和法语，这个机器人助手表现得非常棒，因为它有很多现成的翻译例子可以参考。

但对于一些不太常见的语言，比如斯瓦希里语，这个机器人助手就有点抓瞎了，因为它没有那么多例子可以参考。不过，别担心！我们的WALAR方法就像是给这个机器人助手装上了一个超级大脑，它可以通过观察和学习，自己找出翻译的规律。

这个超级大脑还能发现机器人助手在翻译时可能犯的错误，比如翻译成了错误的语言，或者漏掉了一些重要的词。它会给机器人助手一些提示，帮助它改正错误。

通过这种方式，即使在没有很多例子的情况下，这个机器人助手也能变得越来越聪明，翻译得越来越好！是不是很酷？

术语表

强化学习 (Reinforcement Learning)

一种机器学习方法，通过奖励和惩罚机制引导模型学习最优策略。

在本文中用于训练翻译模型，通过奖励信号优化翻译质量。

大语言模型 (Large Language Model)

一种基于深度学习的模型，能够处理和生成自然语言文本。

用于多语言翻译任务，提升翻译性能。

质量估计 (Quality Estimation)

一种评估翻译质量的方法，通常不需要参考翻译。

用于生成奖励信号，指导模型学习。

词对齐 (Word Alignment)

识别源语言和目标语言中词语之间的对应关系。

用于确保翻译中词语的正确覆盖，避免遗漏或过度翻译。

语言对齐 (Language Alignment)

确保翻译生成的文本符合预期的目标语言。

用于避免翻译成错误的语言，提高翻译一致性。

奖励黑客 (Reward Hacking)

模型通过不正当手段获得高奖励分数的现象。

在本文中指模型通过重复输入源句获得高分。

Flores-101数据集

一个用于评估多语言翻译性能的数据集，涵盖101种语言。

用于评估WALAR方法的翻译性能。

GRPO (Group Relative Policy Optimization)

一种强化学习算法，用于优化策略。

在本文中用于训练翻译模型，提升翻译质量。

spBLEU

一种评估翻译质量的指标，基于BLEU得分。

用于评估WALAR方法的翻译性能。

xCOMET*

一种改进的翻译质量评估指标，考虑了语言一致性。

用于评估WALAR方法的翻译性能。

开放问题这项研究留下的未解疑问

1 如何在极低资源语言环境中进一步提升WALAR的性能？目前的方法在单语数据极其稀缺的情况下可能表现不佳，需要探索新的数据获取和利用策略。
2 质量估计模型的准确性如何进一步提高？现有的质量估计模型在某些情况下可能存在偏差，影响奖励信号的有效性。
3 WALAR方法能否应用于其他自然语言处理任务？需要验证其在文本生成和对话系统等任务中的适用性和有效性。
4 如何降低WALAR方法的计算资源需求？目前的训练过程需要大量计算资源，限制了其在资源有限环境中的应用。
5 如何在不影响翻译质量的情况下，简化WALAR方法的实现？需要探索更简洁高效的算法设计。

应用场景

近期应用

低资源语言翻译

WALAR方法可用于提升低资源语言的翻译质量，帮助开发更高效的翻译系统。

多语言翻译系统

通过WALAR方法，开发者可以构建支持多种语言的翻译系统，特别是在数据稀缺的环境中。

语言学习工具

WALAR方法可用于开发语言学习工具，帮助用户学习和翻译低资源语言。

远期愿景

全球语言交流

通过提升低资源语言的翻译能力，促进全球语言交流和文化传播。

跨文化合作

WALAR方法有助于消除语言障碍，推动跨文化合作和国际交流。

原文摘要

Large Language Models (LLMs) have demonstrated remarkable capability in machine translation on high-resource language pairs, yet their performance on low-resource translation still lags behind. Existing post-training methods rely heavily on high-quality parallel data, which are often scarce or unavailable for low-resource languages. In this paper, we introduce WALAR, a reinforcement training method using only monolingual text to elevate LLMs' translation capabilities on massive low-resource languages while retaining their performance on high-resource languages. Our key insight is based on the observation of failure modes (or "holes") in existing source-based multilingual quality estimation (QE) models. Reinforcement learning (RL) using these QE models tends to amplify such holes, resulting in poorer multilingual LLMs. We develop techniques including word alignment and language alignment to mitigate such holes in WALAR's reward for RL training. We continually trained an LLM supporting translation of 101 languages using WALAR. The experiments show that our new model outperforms LLaMAX, one of the strongest open-source multilingual LLMs by a large margin on 1400 language directions on Flores-101 dataset.

cs.CL

参考文献 (20)

MetricX-24: The Google Submission to the WMT 2024 Metrics Shared Task

Juraj Juraska, Daniel Deutsch, Mara Finkelstein 等

2024 92 引用 ⭐ 高影响力查看解读 →

Tower

G. Wrenn

2017 30 引用 ⭐ 高影响力

X-ALMA: Plug & Play Modules and Adaptive Rejection for Quality Translation at Scale

Haoran Xu, Kenton Murray, Philipp Koehn 等

2024 35 引用查看解读 →

MaskLID: Code-Switching Language Identification through Iterative Masking

Amir Hossein Kargaran, Franccois Yvon, Hinrich Schutze

2024 8 引用查看解读 →

How Vocabulary Sharing Facilitates Multilingualism in LLaMA?

Fei Yuan, Shuai Yuan, Zhiyong Wu 等

2023 17 引用查看解读 →

Word Alignment by Fine-tuning Embeddings on Parallel Corpora

Zi-Yi Dou, Graham Neubig

2021 304 引用查看解读 →

Overestimation in LLM Evaluation: A Controlled Large-Scale Study on Data Contamination's Impact on Machine Translation

Muhammed Yusuf Kocyigit, Eleftheria Briakou, Daniel Deutsch 等

2025 11 引用查看解读 →

Reinforcement Learning based Curriculum Optimization for Neural Machine Translation

Manish Kumar, George F. Foster, Colin Cherry 等

2019 78 引用查看解读 →

Training language models to follow instructions with human feedback

Long Ouyang, Jeff Wu, Xu Jiang 等

2022 19012 引用查看解读 →

Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis

Wenhao Zhu, Hongyi Liu, Qingxiu Dong 等

2023 250 引用查看解读 →

Aya Expanse: Combining Research Breakthroughs for a New Multilingual Frontier

John Dang, Shivalika Singh, Daniel D'souza 等

2024 104 引用查看解读 →

LLaMAX: Scaling Linguistic Horizons of LLM by Enhancing Translation Capabilities Beyond 100 Languages

Yinquan Lu, Wenhao Zhu, Lei Li 等

2024 60 引用查看解读 →

Cross-lingual Retrieval for Iterative Self-Supervised Training

C. Tran, Y. Tang, Xian Li 等

2020 76 引用查看解读 →

The Interplay of Variant, Size, and Task Type in Arabic Pre-trained Language Models

Go Inoue, Bashar Alhafni, Nurpeiis Baimukan 等

2021 320 引用查看解读 →

Are LLMs Breaking MT Metrics? Results of the WMT24 Metrics Shared Task

Markus Freitag, Nitika Mathur, Daniel Deutsch 等

2024 86 引用

COMET: A Neural Framework for MT Evaluation

Ricardo Rei, Craig Alan Stewart, Ana C. Farinha 等

2020 1450 引用查看解读 →

Language Models are Few-Shot Learners

Tom B. Brown, Benjamin Mann, Nick Ryder 等

2020 55356 引用查看解读 →

xcomet: Transparent Machine Translation Evaluation through Fine-grained Error Detection

Nuno M. Guerreiro, Ricardo Rei, Daan van Stigt 等

2023 261 引用查看解读 →

Aligning Neural Machine Translation Models: Human Feedback in Training and Inference

Miguel Moura Ramos, Patrick Fernandes, António Farinhas 等

2023 23 引用查看解读 →

Empirical Results and Analysis

Tengfei Wang, K. Cullinane, Dong-Wook Song

2005 3 引用

Mending the Holes: Mitigating Reward Hacking in Reinforcement Learning for Multilingual Translation

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

强化学习 (Reinforcement Learning)

大语言模型 (Large Language Model)

质量估计 (Quality Estimation)

词对齐 (Word Alignment)

语言对齐 (Language Alignment)

奖励黑客 (Reward Hacking)

Flores-101数据集

GRPO (Group Relative Policy Optimization)

spBLEU

xCOMET*

开放问题 这项研究留下的未解疑问

应用场景

近期应用

低资源语言翻译

多语言翻译系统

语言学习工具

远期愿景

全球语言交流

跨文化合作

原文摘要

参考文献 (20)

相关论文

Neuron-Aware Data Selection In Instruction Tuning For Large Language Models

ESG-Bench: Benchmarking Long-Context ESG Reports for Hallucination Mitigation

Interpretable Semantic Gradients in SSD: A PCA Sweep Approach and a Case Study on AI Discourse

Long-form RewardBench: Evaluating Reward Models for Long-form Generation

HMS-BERT: Hybrid Multi-Task Self-Training for Multilingual and Multi-Label Cyberbullying Detection

Sparking Scientific Creativity via LLM-Driven Interdisciplinary Inspiration

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问