MADE: A Living Benchmark for Multi-Label Text Classification with Uncertainty Quantification of Medical Device Adverse Events
MADE基准测试通过不确定性量化提升多标签文本分类精度,特别是在医疗设备不良事件中。
Raunak Agarwal, Markus Wenzel, Simon Baur 等
MADE基准测试通过不确定性量化提升多标签文本分类精度,特别是在医疗设备不良事件中。
Raunak Agarwal, Markus Wenzel, Simon Baur 等
LLMs在翻译中生成过多内容,提出检测策略以提高翻译质量。
Lisa Vasileva, Karin Sim
研究发现,RAG系统的检索改进未必提升问答性能,尤其在AI政策分析中。
Saahil Mathur, Ryan David Rittner, Vedant Ajit Thakur 等
MARCH框架通过多智能体强化自检显著减少LLM幻觉,提升8B参数模型的事实一致性。
Zhuo Li, Yupeng Zhang, Pengyu Cheng 等
自蒸馏在数学推理中可能降低LLM性能,因抑制不确定性表达。
Jeonghye Kim, Xufang Luo, Minbeom Kim 等
TiCo方法通过语音时间标记显著提高对话模型的时间控制能力,MAE降至4.54秒。
Kai-Wei Chang, Wei-Chih Chen, En-Pei Hu 等
MemDLM通过双层优化嵌入模拟去噪过程,提升DLM训练效率和长文本理解能力。
Zehua Pei, Hui-Ling Zhen, Weizhe Lin 等
语义标记聚类(STC)方法实现大语言模型中高效的不确定性量化,显著降低计算开销。
Qi Cao, Andrew Gambardella, Takeshi Kojima 等
研究SFT-DPO在小型语言模型中的交互,发现全参数微调优于LoRA。
Yuming Feng, Christy Yang
F2LLM-v2通过两阶段训练和套娃学习,提供高效多语言嵌入,支持200多种语言。
Ziyin Zhang, Zihan Liao, Hang Yu 等
Nemotron-Cascade 2通过级联RL和多域策略蒸馏在30B MoE模型中实现了顶级推理能力。
Zhuolin Yang, Zihan Liu, Yang Chen 等
VEPO通过可验证奖励的强化学习提升低资源语言模型的翻译质量和分词效率。
Chonghan Liu, Yimin Du, Qi An 等
通过嵌入空间探测实现高效的无训练多标记预测,提升LLaMA3的接受长度12%。
Raghavv Goel, Mukul Gagrani, Mingu Lee 等
混合深度注意力(MoDA)在1.5B参数模型上提升了2.11%的下游任务表现,计算开销仅增加3.7%。
Lianghui Zhu, Yuxin Fang, Bencheng Liao 等
使用稀疏自编码器纠正语言模型的道德冷漠,提升75%对抗性基准胜率。
Lingyu Li, Yan Teng, Yingchun Wang
Code-A1通过对抗性共进化框架,提升代码生成和测试生成能力。
Aozhe Wang, Yuchen Yan, Nan Zhou 等
NAIT框架通过神经元激活模式选择高效指令微调数据,提升LLM性能。
Xin Chen, Junchao Wu, Shu Yang 等
ESG-Bench通过任务特定的思维链提示策略,显著减少大语言模型在长篇ESG报告分析中的幻觉现象。
Siqi Sun, Ben Peng Wu, Mali Jin 等
WALAR方法利用单语数据提升低资源语言翻译能力,超越LLaMAX模型。
Yifeng Liu, Siqi Ouyang, Yatish Hosmane Revanasiddappa 等
提出PCA扫掠方法,优化SSD中的维度选择,提升解释性和稳定性。
Hubert Plisiecki, Maria Leniarska, Jan Piotrowski 等