Paper 解读 - Arxiv 论文中文解读平台

cs.CL 2604.15203

MADE: A Living Benchmark for Multi-Label Text Classification with Uncertainty Quantification of Medical Device Adverse Events

MADE基准测试通过不确定性量化提升多标签文本分类精度，特别是在医疗设备不良事件中。

Raunak Agarwal, Markus Wenzel, Simon Baur 等

2026-04-17 33

cs.CL 2604.15165

Fabricator or dynamic translator?

LLMs在翻译中生成过多内容，提出检测策略以提高翻译质量。

Lisa Vasileva, Karin Sim

2026-04-16 30

cs.CL 2603.24580

Retrieval Improvements Do Not Guarantee Better Answers: A Study of RAG for AI Policy QA

研究发现，RAG系统的检索改进未必提升问答性能，尤其在AI政策分析中。

Saahil Mathur, Ryan David Rittner, Vedant Ajit Thakur 等

2026-03-26 46

cs.CL 2603.24579

MARCH: Multi-Agent Reinforced Self-Check for LLM Hallucination

MARCH框架通过多智能体强化自检显著减少LLM幻觉，提升8B参数模型的事实一致性。

Zhuo Li, Yupeng Zhang, Pengyu Cheng 等

2026-03-26 220

cs.CL 2603.24472

Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs?

自蒸馏在数学推理中可能降低LLM性能，因抑制不确定性表达。

Jeonghye Kim, Xufang Luo, Minbeom Kim 等

2026-03-26 67

cs.CL 2603.22267

TiCo: Time-Controllable Training for Spoken Dialogue Models

TiCo方法通过语音时间标记显著提高对话模型的时间控制能力，MAE降至4.54秒。

Kai-Wei Chang, Wei-Chih Chen, En-Pei Hu 等

2026-03-24 68

cs.CL 2603.22241

MemDLM: Memory-Enhanced DLM Training

MemDLM通过双层优化嵌入模拟去噪过程，提升DLM训练效率和长文本理解能力。

Zehua Pei, Hui-Ling Zhen, Weizhe Lin 等

2026-03-24 43

cs.CL 2603.20161

Semantic Token Clustering for Efficient Uncertainty Quantification in Large Language Models

语义标记聚类（STC）方法实现大语言模型中高效的不确定性量化，显著降低计算开销。

Qi Cao, Andrew Gambardella, Takeshi Kojima 等

2026-03-21 50

cs.CL 2603.20100

An Empirical Study of SFT-DPO Interaction and Parameterization in Small Language Models

研究SFT-DPO在小型语言模型中的交互，发现全参数微调优于LoRA。

Yuming Feng, Christy Yang

2026-03-21 63

cs.CL 2603.19223

F2LLM-v2: Inclusive, Performant, and Efficient Embeddings for a Multilingual World

F2LLM-v2通过两阶段训练和套娃学习，提供高效多语言嵌入，支持200多种语言。

Ziyin Zhang, Zihan Liao, Hang Yu 等

2026-03-20 55

cs.CL 2603.19220

Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation

Nemotron-Cascade 2通过级联RL和多域策略蒸馏在30B MoE模型中实现了顶级推理能力。

Zhuolin Yang, Zihan Liu, Yang Chen 等

2026-03-20 53

cs.CL 2603.19152

VEPO: Variable Entropy Policy Optimization for Low-Resource Language Foundation Models

VEPO通过可验证奖励的强化学习提升低资源语言模型的翻译质量和分词效率。

Chonghan Liu, Yimin Du, Qi An 等

2026-03-20 44

cs.CL 2603.17942

Efficient Training-Free Multi-Token Prediction via Embedding-Space Probing

通过嵌入空间探测实现高效的无训练多标记预测，提升LLaMA3的接受长度12%。

Raghavv Goel, Mukul Gagrani, Mingu Lee 等

2026-03-19 96

cs.CL 2603.15619

Mixture-of-Depths Attention

混合深度注意力(MoDA)在1.5B参数模型上提升了2.11%的下游任务表现，计算开销仅增加3.7%。

Lianghui Zhu, Yuxin Fang, Bencheng Liao 等

2026-03-17 65

cs.CL 2603.15615

Mechanistic Origin of Moral Indifference in Language Models

使用稀疏自编码器纠正语言模型的道德冷漠，提升75%对抗性基准胜率。

Lingyu Li, Yan Teng, Yingchun Wang

2026-03-17 48

cs.CL 2603.15611

Code-A1: Adversarial Evolving of Code LLM and Test LLM via Reinforcement Learning

Code-A1通过对抗性共进化框架，提升代码生成和测试生成能力。

Aozhe Wang, Yuchen Yan, Nan Zhou 等

2026-03-17 53

cs.CL 2603.13201

Neuron-Aware Data Selection In Instruction Tuning For Large Language Models

NAIT框架通过神经元激活模式选择高效指令微调数据，提升LLM性能。

Xin Chen, Junchao Wu, Shu Yang 等

2026-03-14 71

cs.CL 2603.13154

ESG-Bench: Benchmarking Long-Context ESG Reports for Hallucination Mitigation

ESG-Bench通过任务特定的思维链提示策略，显著减少大语言模型在长篇ESG报告分析中的幻觉现象。

Siqi Sun, Ben Peng Wu, Mali Jin 等

2026-03-14 113

cs.CL 2603.13045

Mending the Holes: Mitigating Reward Hacking in Reinforcement Learning for Multilingual Translation

WALAR方法利用单语数据提升低资源语言翻译能力，超越LLaMAX模型。

Yifeng Liu, Siqi Ouyang, Yatish Hosmane Revanasiddappa 等

2026-03-13 58

cs.CL 2603.13038

Interpretable Semantic Gradients in SSD: A PCA Sweep Approach and a Case Study on AI Discourse

提出PCA扫掠方法，优化SSD中的维度选择，提升解释性和稳定性。

Hubert Plisiecki, Maria Leniarska, Jan Piotrowski 等

2026-03-13 51