排序: 最新 热门 引用
cs.CL 2603.22241

MemDLM: Memory-Enhanced DLM Training

MemDLM通过双层优化嵌入模拟去噪过程,提升DLM训练效率和长文本理解能力。

Zehua Pei, Hui-Ling Zhen, Weizhe Lin 等

2026-03-24 43
cs.CL 2603.15619

Mixture-of-Depths Attention

混合深度注意力(MoDA)在1.5B参数模型上提升了2.11%的下游任务表现,计算开销仅增加3.7%。

Lianghui Zhu, Yuxin Fang, Bencheng Liao 等

2026-03-17 65