CRAFT: Clustered Regression for Adaptive Filtering of Training data

TL;DR

CRAFT方法通过聚类回归自适应筛选训练数据，在英印翻译中提升BLEU值2.13分。

cs.CL 🔴 高级 2026-04-25 35 次浏览

Parthasarathi Panda Asheswari Swain Subhrakanta Panda

数据选择聚类机器翻译分布匹配 TF-IDF

核心发现

方法论

CRAFT方法通过分解源-目标联合分布，采用两阶段选择策略：首先通过k-means聚类进行比例预算分配以匹配验证源分布，然后在每个源聚类中选择目标嵌入最小化条件期望距离的训练对。此方法证明了比例聚类分配可以限制选择与验证分布之间的连续KL散度，残差由聚类直径控制。

关键结果

CRAFT在英印翻译任务中，使用33百万NLLB句对数据集，微调mBART模型，取得43.34 BLEU分数，比TSDS高出2.13分，同时选择速度提高40倍。
使用TF-IDF向量化，整个流程在CPU上不到一分钟完成，而TAROT需要75.6秒，CRAFT仅需26.86秒，速度提升2.8倍。
CRAFT在1百万候选池中使用嵌入实现43.34 BLEU，而使用TF-IDF实现41.78 BLEU，接近TSDS的41.21 BLEU。

研究意义

CRAFT方法在大规模语料库中选择高质量子集进行微调，显著降低了计算成本，同时提高了模型性能。它通过聚类和条件期望距离最小化，解决了传统方法在处理源-目标条件关系时的不足，尤其在多语言翻译任务中展现出优越性。该方法不仅在学术界具有重要意义，还为工业界提供了一种高效的数据选择策略。

技术贡献

CRAFT方法在技术上与现有最先进方法有根本区别。它通过源和目标的独立聚类，捕捉验证集中的条件结构，避免了传统方法的联合嵌入处理。该方法提供了新的理论保证，通过限制选择与验证分布之间的KL散度，确保选择的子集与验证集的分布一致。此外，CRAFT在工程上实现了显著的速度提升，特别是在大规模数据集上的应用中。

新颖性

CRAFT是首个通过源-目标分布分解进行数据选择的方法。与现有方法相比，CRAFT通过独立聚类源和目标嵌入，捕捉了验证集中的条件结构，提供了一种新的数据选择视角，避免了传统方法在处理源-目标条件关系时的不足。

局限性

CRAFT方法在处理非常高维的嵌入时，可能会受到聚类质量的影响，导致选择的子集与验证集的分布不完全匹配。
在某些低资源语言对中，源和目标的条件关系可能不明显，影响CRAFT的选择效果。
CRAFT依赖于验证集的质量和代表性，若验证集不具代表性，可能导致选择的子集性能下降。

未来方向

未来研究可以探索CRAFT在其他任务中的应用，如图像分类或文本生成。此外，可以研究如何在低资源语言对中增强CRAFT的性能，或结合其他数据选择策略以提高选择的准确性和效率。

AI 总览摘要

随着语料库规模的不断扩大，选择一个小而高质量的子集进行微调变得越来越重要。现有方法在处理源-目标条件关系时存在不足，导致选择的子集与验证集的分布不匹配。CRAFT方法通过聚类回归自适应筛选训练数据，提供了一种新的解决方案。

CRAFT通过分解源-目标联合分布，采用两阶段选择策略。首先，通过k-means聚类进行比例预算分配，以匹配验证源分布。然后，在每个源聚类中选择目标嵌入最小化条件期望距离的训练对。这种方法在理论上证明了比例聚类分配可以限制选择与验证分布之间的连续KL散度，残差由聚类直径控制。

在实验中，CRAFT在英印翻译任务中表现出色。使用33百万NLLB句对数据集，微调mBART模型，CRAFT取得了43.34 BLEU分数，比TSDS高出2.13分。同时，CRAFT选择速度提高40倍，使用TF-IDF向量化，整个流程在CPU上不到一分钟完成，而TAROT需要75.6秒，CRAFT仅需26.86秒，速度提升2.8倍。

CRAFT方法在大规模语料库中选择高质量子集进行微调，显著降低了计算成本，同时提高了模型性能。这种方法通过聚类和条件期望距离最小化，解决了传统方法在处理源-目标条件关系时的不足，尤其在多语言翻译任务中展现出优越性。

然而，CRAFT在处理非常高维的嵌入时，可能会受到聚类质量的影响，导致选择的子集与验证集的分布不完全匹配。此外，在某些低资源语言对中，源和目标的条件关系可能不明显，影响CRAFT的选择效果。未来研究可以探索CRAFT在其他任务中的应用，如图像分类或文本生成。

深度分析

研究背景

随着自然语言处理领域的快速发展，机器翻译模型的性能在很大程度上依赖于训练数据的质量和相关性。近年来，平行语料库的规模已扩展至数千万对句子，如NLLB语料库中的3300万对英印句子。然而，在如此大规模的语料库上进行全面微调既昂贵又常常不必要。选择一个小而高质量的子集进行微调，可以在捕捉正确的分布特性的前提下，匹配或超过在完整数据集上训练的性能。现有的方法在数据选择上存在不同的权衡，如基于词汇的方法速度快但无法捕捉语义结构，而基于梯度的方法性能强但需要昂贵的编码器推理或在完整候选池上进行最优传输求解。

核心问题

在大规模语料库中选择合适的训练数据已成为一项关键挑战。全面微调不仅计算成本高，而且常常不必要。一个小而精心选择的子集可以在捕捉正确的分布特性的前提下，匹配或超过在完整数据集上训练的性能。现有的方法在数据选择上存在不同的权衡，如基于词汇的方法速度快但无法捕捉语义结构，而基于梯度的方法性能强但需要昂贵的编码器推理或在完整候选池上进行最优传输求解。

核心创新

CRAFT方法通过分解源-目标联合分布，采用两阶段选择策略：首先，通过k-means聚类进行比例预算分配以匹配验证源分布，然后在每个源聚类中选择目标嵌入最小化条件期望距离的训练对。此方法证明了比例聚类分配可以限制选择与验证分布之间的连续KL散度，残差由聚类直径控制。CRAFT在技术上与现有最先进方法有根本区别。它通过源和目标的独立聚类，捕捉验证集中的条件结构，避免了传统方法的联合嵌入处理。

方法详解

�� CRAFT方法通过分解源-目标联合分布，采用两阶段选择策略。
�� 首先，通过k-means聚类进行比例预算分配以匹配验证源分布。
�� 然后，在每个源聚类中选择目标嵌入最小化条件期望距离的训练对。
�� 此方法证明了比例聚类分配可以限制选择与验证分布之间的连续KL散度，残差由聚类直径控制。
�� CRAFT在技术上与现有最先进方法有根本区别。它通过源和目标的独立聚类，捕捉验证集中的条件结构，避免了传统方法的联合嵌入处理。

实验设计

结果分析

CRAFT在英印翻译任务中表现出色。使用33百万NLLB句对数据集，微调mBART模型，CRAFT取得了43.34 BLEU分数，比TSDS高出2.13分。同时，CRAFT选择速度提高40倍，使用TF-IDF向量化，整个流程在CPU上不到一分钟完成，而TAROT需要75.6秒，CRAFT仅需26.86秒，速度提升2.8倍。

应用场景

局限与展望

CRAFT在处理非常高维的嵌入时，可能会受到聚类质量的影响，导致选择的子集与验证集的分布不完全匹配。此外，在某些低资源语言对中，源和目标的条件关系可能不明显，影响CRAFT的选择效果。未来研究可以探索CRAFT在其他任务中的应用，如图像分类或文本生成。

通俗解读非专业人士也能看懂

想象你在一个巨大的图书馆里，有成千上万本书。你需要选择几本书来写一篇关于某个主题的文章，但你没有时间读完所有的书。CRAFT方法就像是一个聪明的图书管理员，他知道如何快速找到最相关的书。首先，他会把所有的书按主题分成不同的组，就像把书放在不同的书架上。然后，他会在每个书架上选择那些最能代表整个书架主题的书。这就像是在每个书架上找到最有价值的书，而不是随便挑几本。这样，你就可以在很短的时间内找到最有用的信息来写你的文章。CRAFT方法通过这种方式，在不需要读完所有书的情况下，帮助你快速找到最相关的信息。

简单解释像给14岁少年讲一样

嘿，小伙伴！想象一下你有一个超大的玩具箱，里面有成千上万个玩具。但你只能挑几个出来玩，因为时间不够。CRAFT方法就像是一个超级聪明的玩具挑选器！首先，它会把玩具按类型分成不同的盒子，比如汽车、娃娃、积木等等。然后，它会在每个盒子里挑选出最酷、最有趣的玩具。这样，你就能在短时间内玩到最棒的玩具，而不是浪费时间在那些不太好玩的玩具上。CRAFT方法就是这样帮你快速找到最好玩的东西！是不是很酷？

术语表

CRAFT (聚类回归自适应筛选)

一种通过聚类回归自适应筛选训练数据的方法，旨在从大规模语料库中选择高质量子集进行微调。

在论文中用于选择英印翻译任务的训练数据。

k-means 聚类

一种将数据点分成k个组的无监督学习算法，每个组由一个质心代表。

用于将源和目标嵌入分成不同的聚类。

BLEU (双语评估替代)

一种用于评估机器翻译质量的指标，通过比较机器翻译与参考翻译的相似度来打分。

用于评估CRAFT方法在英印翻译任务中的性能。

TF-IDF (词频-逆文档频率)

一种用于文本向量化的方法，通过衡量一个词在文档中的重要性来表示文本。

用于CRAFT方法中的向量化步骤。

LoRA (低秩适应)

一种用于微调大型语言模型的方法，通过低秩矩阵分解来减少参数量。

用于微调mBART模型。

KL 散度

一种用于衡量两个概率分布之间差异的指标。

用于证明CRAFT方法中选择与验证分布之间的差异。

NLLB 语料库

一个包含3300万对句子的多语言平行语料库，用于机器翻译任务。

用于评估CRAFT方法的实验数据集。

mBART 模型

一种多语言序列到序列预训练模型，适用于多语言翻译任务。

用于评估CRAFT方法的翻译性能。

条件期望距离

一种用于衡量在给定条件下，目标嵌入与验证目标分布之间距离的方法。

用于CRAFT方法中的目标选择步骤。

分布匹配

一种通过调整选择的数据集，使其分布与验证集相似的方法。

用于CRAFT方法中的源分布匹配步骤。

开放问题这项研究留下的未解疑问

1 CRAFT方法在处理非常高维的嵌入时，可能会受到聚类质量的影响，导致选择的子集与验证集的分布不完全匹配。未来研究可以探索如何提高聚类的质量，以确保选择的子集与验证集的分布更加一致。
2 在某些低资源语言对中，源和目标的条件关系可能不明显，影响CRAFT的选择效果。未来研究可以探索如何在低资源语言对中增强CRAFT的性能，或结合其他数据选择策略以提高选择的准确性和效率。
3 CRAFT依赖于验证集的质量和代表性，若验证集不具代表性，可能导致选择的子集性能下降。未来研究可以探索如何在验证集不具代表性的情况下，仍能选择出高质量的子集。
4 CRAFT方法在大规模数据集上的应用中表现出色，但在小规模数据集上的表现尚未得到充分验证。未来研究可以探索CRAFT在小规模数据集上的性能，并与其他方法进行比较。
5 CRAFT方法在多语言翻译任务中展现出优越性，但在其他任务中的应用尚未得到充分验证。未来研究可以探索CRAFT在其他任务中的应用，如图像分类或文本生成。

应用场景

近期应用

多语言翻译

CRAFT方法可以用于多语言翻译任务，选择高质量的训练数据，提高翻译模型的性能。

文本分类

CRAFT方法可以用于文本分类任务，通过选择最相关的训练数据，提高分类模型的准确性。

语音识别

CRAFT方法可以用于语音识别任务，选择高质量的训练数据，提高识别模型的性能。

远期愿景

自动驾驶

CRAFT方法可以应用于自动驾驶中的感知模块，通过选择高质量的训练数据，提高感知模型的准确性和鲁棒性。

智能客服

CRAFT方法可以用于智能客服系统，通过选择高质量的训练数据，提高客服系统的响应质量和用户满意度。

原文摘要

Selecting a small, high-quality subset from a large corpus for fine-tuning is increasingly important as corpora grow to tens of millions of datapoints, making full fine-tuning expensive and often unnecessary. We propose CRAFT (Clustered Regression for Adaptive Filtering of Training data), a vectorization-agnostic selection method for training sequence-to-sequence models. CRAFT decomposes the joint source-target distribution and performs a two-stage selection: (i) match the validation source distribution through proportional budget allocation across k-means clusters, and (ii) within each source cluster, select training pairs whose target embeddings minimize a conditional expected distance derived from the validation target distribution. We prove that proportional cluster allocation bounds the continuous KL divergence between selected and validation distributions, with the residual controlled by cluster diameters. We evaluate CRAFT on English-Hindi translation by selecting training data from 33 million NLLB sentence pairs and fine-tuning mBART via LoRA. CRAFT achieves 43.34 BLEU, outperforming TSDS (41.21) by 2.13 points on the same candidate pool and encoder while completing selection over 40 times faster. With TF-IDF vectorization, the entire pipeline completes in under one minute on CPU. TAROT achieves 45.61 BLEU, but CRAFT completes selection in 26.86 seconds versus TAROT's 75.6 seconds, a 2.8 time speedup.

cs.CL cs.AI

参考文献 (20)

TAROT: Targeted Data Selection via Optimal Transport

Lang Feng, Fan Nie, Yuejiang Liu 等

2024 4 引用 ⭐ 高影响力查看解读 →

TSDS: Data Selection for Task-Specific Model Finetuning

Zifan Liu, Amin Karbasi, Theodoros Rekatsinas

2024 26 引用 ⭐ 高影响力查看解读 →

Data Selection for Language Models via Importance Resampling

Sang Michael Xie, Shibani Santurkar, Tengyu Ma 等

2023 315 引用 ⭐ 高影响力查看解读 →

LESS: Selecting Influential Data for Targeted Instruction Tuning

Mengzhou Xia, Sadhika Malladi, Suchin Gururangan 等

2024 455 引用 ⭐ 高影响力查看解读 →

Performance Scaling via Optimal Transport: Enabling Data Selection from Partially Revealed Sources

Feiyang Kang, H. Just, Anit Kumar Sahu 等

2023 19 引用查看解读 →

A Survey on Data Selection for Language Models

Alon Albalak, Yanai Elazar, Sang Michael Xie 等

2024 240 引用查看解读 →

Bleu: a Method for Automatic Evaluation of Machine Translation

Kishore Papineni, Salim Roukos, T. Ward 等

2002 32827 引用

DsDm: Model-Aware Dataset Selection with Datamodels

Logan Engstrom, Axel Feldmann, A. Ma̧dry

2024 104 引用查看解读 →

Large Language Models for Summarizing Czech Historical Documents and Beyond

V'aclav Tran, Jakub Šmíd, J. Martínek 等

2025 2 引用查看解读 →

Multilingual Translation from Denoising Pre-Training

Y. Tang, C. Tran, Xian Li 等

2021 144 引用

LoRA: Low-Rank Adaptation of Large Language Models

J. Hu, Yelong Shen, Phillip Wallis 等

2021 18484 引用查看解读 →

Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks

Nils Reimers, Iryna Gurevych

2019 17354 引用查看解读 →

Sampling techniques.

B. Longest

1971 7724 引用

Comparative Analysis of Neural Translation Models based on Transformers Architecture

Alexander V. Smirnov, N. Teslya, N. Shilov 等

2022 6 引用

METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments

Satanjeev Banerjee, A. Lavie

2005 7947 引用

Beyond English-Centric Multilingual Machine Translation

Angela Fan, Shruti Bhosale, Holger Schwenk 等

2020 1050 引用查看解读 →

Neural Machine Translation for Low-resource Languages: A Survey

Surangika Ranathunga, E. Lee, M. Skenduli 等

2021 350 引用查看解读 →

A statistical interpretation of term specificity and its application in retrieval

Karen Spärck Jones

2021 5259 引用

Billion-Scale Similarity Search with GPUs

Jeff Johnson, Matthijs Douze, H. Jégou

2017 5043 引用查看解读 →

chrF: character n-gram F-score for automatic MT evaluation

Maja Popovic

2015 1813 引用

CRAFT: Clustered Regression for Adaptive Filtering of Training data

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

CRAFT (聚类回归自适应筛选)

k-means 聚类

BLEU (双语评估替代)

TF-IDF (词频-逆文档频率)

LoRA (低秩适应)

KL 散度

NLLB 语料库

mBART 模型

条件期望距离

分布匹配

开放问题 这项研究留下的未解疑问

应用场景

近期应用

多语言翻译

文本分类

语音识别

远期愿景

自动驾驶

智能客服

原文摘要

参考文献 (20)

相关论文

Sentiment and Emotion Classification of Indonesian E-Commerce Reviews via Multi-Task BiLSTM and AutoML Benchmarking

SeaEvo: Advancing Algorithm Discovery with Strategy Space Evolution

Improving Robustness of Tabular Retrieval via Representational Stability

Representational Harms in LLM-Generated Narratives Against Global Majority Nationalities

BERAG: Bayesian Ensemble Retrieval-Augmented Generation for Knowledge-based Visual Question Answering

EVENT5Ws: A Large Dataset for Open-Domain Event Extraction from Documents

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问