The Register Gap: A Meaning Intelligence Framework for Nigerian Public Discourse
提出九维标注框架(MIF)以区分尼日利亚公共话语中的表面情感与真实意图,模型在无指导下注册分类准确率33.3%,指导后提升至73.3%。
Celestine Achi
提出九维标注框架(MIF)以区分尼日利亚公共话语中的表面情感与真实意图,模型在无指导下注册分类准确率33.3%,指导后提升至73.3%。
Celestine Achi
提出基于图灵奖励的强化学习方法Turing-RL,用于训练人类用户模拟器,显著优于传统匹配方法。
Yingshan Susan Wang, Cedegao E. Zhang, Linlu Qiu 等
RubricsTree构建了基于专家对100+临床验证布尔评分的层级分类体系,用于大规模、可演化的个人健康AI评估,显著优于行业基线。
Weizhi Zhang, Zechen Li, Hamid Palangi 等
本研究基于MetaSyn数据集,评估12种LLM管道在自然出版物元分析中的表现,揭示筛选瓶颈,最大召回率90.9%,实际检索覆盖不足52.7%。
Anzhe Xie, Weihang Su, Yujia Zhou 等
提出一种衡量AI生成故事中文化本地化的模板识别方法,发现仅9-17%的词汇决定文化差异。
Shaily Bhatt, Supriti Vijay, Jeremiah Milbauer 等
提出运算子框架Q,用于描述问答中的问题分解,结合操作一致性提升多步推理可靠性。
Nathaniel Bottman, Kyle Richardson
VISTA引入融合UI与API的混合用户模拟器,采用六项指标评估交互真实性与能力覆盖,显著优于现有方法。
Yunan Lu, Ryan Shea, Yusen Zhang 等
通过对比Llama 3.1 8B模型前后RLHF的内部表示,揭示RLHF只实现浅层对齐,未去除偏见结构,反而压缩偏见信号变异。
Wendy K. Tam
提出AdvGRPO框架,结合密集多通道奖励和解耦优势归一,实现语言模型的攻防联合优化,提升攻击成功率和防御鲁棒性。
Blake Bullwinkel, Eugenia Kim, Amanda Minnich 等
提出Agentopia框架,模拟10年长周期多智能体社会,利用生命奖励训练LLMs,提升社会行为和人类认知模拟能力。
Xintao Wang, Sirui Zheng, Hongqiu Wu 等
提出EmbedFilter,通过过滤未嵌入矩阵中的潜在子空间,提升LLMs文本嵌入性能,降低存储和加速检索。
Songhao Wu, Zhongxin Chen, Yuxuan Liu 等
本文提出基于LLM引导的MAP-Elites演化方法,用于优化医疗决策流程,包括急诊分诊、互动咨询和医学影像分类,显著提升性能。
Ivan Sviridov, Artem Oskin, Ivan Panin 等
提出基于多智能体强化学习的涌现语言方法,观察无先验条件下的意识相关结构,发现自指通信和回声检测电路。
Zengqing Wu, Chuan Xiao
引入数据快照提取基准,评估开源布局检测模型在机构文件中的表现,发现模型在实际应用中存在较大差距。
AJ Carl P. Dy, Aivin V. Solatorio
提出SubFit方法,在LLM中以非连续子模块级别替换,显著提升压缩效果,25%稀疏下保持84.6%准确率。
Elia Cunegatti, Marcus Vukojevic, Erik Nielsen 等
提出脚本归一化的WER(SN-WER),在五种印地语系语言中通过转写减少多达12%的脚本偏差影响,提升多脚本ASR评估的准确性。
Priyaranjan Pattnayak
SimSD采用插拔式掩码策略,为扩散式大语言模型引入令时间有效的逐词验证,实现最高7.46倍的解码吞吐提升。
Junxia Cui, Haotian Ye, Runchu Tian 等
LongTraceRL通过知识图随机游走生成多跳问答,利用搜索轨迹构建分层干扰项,采用实体级评分奖励,显著提升长文本推理性能。
Nianyi Lin, Jiajie Zhang, Lei Hou 等
本文提出“Disagreeing Rationales”框架,系统分析多样标注与解释在仇恨言论检测中的影响,强调软标签和软理据的优势。
Benedetta Muscato, Beiduo Chen, Gizem Gezici 等
本研究提出多轮多智能体对话框架,利用视觉语言模型(VLM)在空间推理任务中的表现,发现其提升有限,主要受限于视觉空间地面化能力。
Chalamalasetti Kranti, Sherzod Hakimov, David Schlangen