Paper 解读 - Arxiv 论文中文解读平台

cs.LG 2604.16247

Joint-Centric Dual Contrastive Alignment with Structure-Preserving and Information-Balanced Regularization

HILBERT框架通过双重对比学习和信息均衡正则化，在长序列音频-文本表示学习中实现了显著性能提升。

Habibeh Naderi, Behrouz Haji Soleimani, Stan Matwin

2026-04-18 95

cs.LG 2604.16242

Detecting and Suppressing Reward Hacking with Gradient Fingerprints

使用梯度指纹检测和抑制奖励欺骗行为，在数学、代码和逻辑推理基准上表现优异。

Songtao Wang, Quang Hieu Pham, Fangcong Yin 等

2026-04-18 287

cs.LG 2604.16076

Prototype-Grounded Concept Models for Verifiable Concept Alignment

原型锚定概念模型（PGCMs）通过视觉原型验证概念对齐，提升解释性。

Stefano Colamonaco, David Debot, Pietro Barbiero 等

2026-04-17 122

cs.LG 2604.15297

Benchmarking Optimizers for MLPs in Tabular Deep Learning

Muon优化器在MLP表格深度学习中表现优于AdamW，适合在可接受的训练效率下使用。

Yury Gorishniy, Ivan Rubachev, Dmitrii Feoktistov 等

2026-04-17 91

cs.LG 2604.15259

Stability and Generalization in Looped Transformers

通过固定点框架分析循环Transformer的稳定性和泛化能力，验证在国际象棋、数独和前缀和任务上的性能。

Asher Labovich

2026-04-17 123

cs.LG 2603.23414

SortedRL: Accelerating RL Training for LLMs through Online Length-Aware Scheduling

SortedRL通过在线长度感知调度加速大语言模型的强化学习训练，提升效率并提高性能。

Yiqi Zhang, Huiqiang Jiang, Xufang Luo 等

2026-03-25 7 引用 180

cs.LG 2603.23398

Graph Energy Matching: Transport-Aligned Energy-Based Modeling for Graph Generation

提出Graph Energy Matching (GEM)，在分子图生成中超越离散扩散模型。

Michal Balcerak, Suprosana Shit, Chinmay Prabhakar 等

2026-03-25 100

cs.LG 2603.22276

Scaling DoRA: High-Rank Adaptation via Factored Norms and Fused Kernels

Scaling DoRA通过分解范数和融合内核实现高阶适配，显著降低内存使用，提升速度。

Alexandra Zelenin, Alexandra Zhuravlyova

2026-03-24 87

cs.LG 2603.22213

SPA: A Simple but Tough-to-Beat Baseline for Knowledge Injection

SPA方法通过精心设计的提示生成大规模合成数据，实现知识注入，表现优异。

Kexian Tang, Jiani Wang, Shaowen Wang 等

2026-03-24 108

cs.LG 2603.19221

Online Learning and Equilibrium Computation with Ranking Feedback

提出了一种在排名反馈下进行在线学习的新算法，解决了传统数值反馈缺失的问题。

Mingyang Liu, Yongshan Chen, Zhiyuan Fan 等

2026-03-20 1 引用 101

cs.LG 2603.19204

Robustness, Cost, and Attack-Surface Concentration in Phishing Detection

通过成本感知的规避框架研究钓鱼检测中的鲁棒性，最小规避成本为2，80%以上的攻击集中在三个低成本特征上。

Julian Allagan, Mohamed Elbakary, Zohreh Safari 等

2026-03-20 149

cs.LG 2603.18965

Maximum-Entropy Exploration with Future State-Action Visitation Measures

本文提出了一种基于未来状态-动作访问度量的最大熵探索方法，提高了特征访问和收敛速度。

Adrien Bolland, Gaspard Lambrechts, Damien Ernst

2026-03-19 123

cs.LG 2603.18299

ALIGN: Adversarial Learning for Generalizable Speech Neuroprosthesis

ALIGN通过对抗学习提高跨会话语音神经假体的泛化能力，显著降低音素和单词错误率。

Zhanqi Zhang, Shun Li, Bernardo L. Sabatini 等

2026-03-19 131

cs.LG 2603.17891

RAMP: Reinforcement Adaptive Mixed Precision Quantization for Efficient On Device LLM Inference

RAMP通过强化学习自适应混合精度量化，实现设备上LLM高效推理，提升6%模型大小和1-3%质量。

Arpit Singh Gautam, Saurabh Jha

2026-03-19 1 引用 131

cs.LG 2603.16867

Efficient Reasoning on the Edge

使用LoRA适配器和强化学习实现小型LLM的高效推理，显著降低响应长度。

Yelysei Bondarenko, Thomas Hehn, Rob Hesselink 等

2026-03-18 130

cs.LG 2603.15617

HorizonMath: Measuring AI Progress Toward Mathematical Discovery with Automatic Verification

HorizonMath通过自动验证框架评估AI在数学发现上的进展，GPT 5.4 Pro在两个问题上取得突破。

Erik Y. Wang, Sumeet Motwani, James V. Roggeveen 等

2026-03-17 141

cs.LG 2603.15590

Effective Distillation to Hybrid xLSTM Architectures

通过有效蒸馏，将xLSTM架构应用于大型语言模型，恢复甚至超越教师模型性能。

Lukas Hauzenberger, Niklas Schmidinger, Thomas Schmied 等

2026-03-17 145

cs.LG 2603.15563

The PokeAgent Challenge: Competitive and Long-Context Learning at Scale

PokeAgent挑战通过Pokemon战斗和RPG环境测试AI决策能力，提供20M+数据集和标准化评估框架。

Seth Karten, Jake Grigsby, Tersoo Upaa 等

2026-03-17 10 引用 175

cs.LG 2603.13228

PhysMoDPO: Physically-Plausible Humanoid Motion with Preference Optimization

PhysMoDPO通过偏好优化生成符合物理的类人运动，提升真实感和任务性能。

Yangsong Zhang, Anujith Muraleedharan, Rikhat Akizhanov 等

2026-03-14 157

cs.LG 2603.13227

Representation Learning for Spatiotemporal Physical Systems

采用联合嵌入预测架构（JEPA）在潜在空间中学习物理系统表示，显著提高参数估计精度。

Helen Qu, Rudy Morel, Michael McCabe 等

2026-03-14 2 引用 192