Normal Guidance is what Attention Needs
提出Normal Guidance正态引导正则化方法,提升基于注意力的MIL在4百万切片CT数据上的切片级定位性能。
Ethan Harvey, Dennis Johan Loevlie, Michael C. Hughes
提出Normal Guidance正态引导正则化方法,提升基于注意力的MIL在4百万切片CT数据上的切片级定位性能。
Ethan Harvey, Dennis Johan Loevlie, Michael C. Hughes
统一神经网络缩放定律(UNSL)精准建模多维度同时变化下的深度学习性能,提升预测准确度超过10%。
Ethan Caballero, Priyank Jaini, David Krueger 等
提出Vector Policy Optimization(VPO)算法,通过训练多样化策略显著提升测试时搜索性能,最高提升达20%以上。
Ryan Bahlous-Boldi, Isha Puri, Idan Shenfeld 等
提出基于3D高斯点云持久世界模型和Transformer序列策略的好奇心驱动3D探索,HM3D测试提升3D覆盖率至74.94%。
Lily Goli, Justin Kerr, Daniele Reda 等
匹配原理:通过估计部署环境无关扰动协方差矩阵,正则化编码器Jacobian,实现鲁棒表示学习,7B模型实验验证。
Vishal Rajput
Pion优化器通过正交等价变换保持光谱,提升大语言模型训练稳定性。
Kexuan Shi, Hanxuan Li, Zeju Qiu 等
提出一种稀疏到密集奖励原则,结合GRPO和OPD,提升语言模型后训练性能。
Yuanda Xu, Hejian Sang, Zhengze Zhou 等
MEME通过多实体和动态记忆评估揭示现有系统在依赖推理任务上的不足。
Seokwon Jung, Alexander Rubinstein, Arnas Uselis 等
本文提出了一种无参数在线K-Means路由器,通过几何耦合实现有效的专家分配,降低负载不平衡,仅略微增加困惑度。
Sagi Ahrac, Noya Hochwald, Mor Geva
KV-Fold:一种无需训练的长上下文推理协议,实现100%精确匹配检索。
Alireza Nadali, Patrick Cooper, Ashutosh Trivedi 等
Attractor模型通过固定点求解提升语言建模和推理,训练效率提高46.6%,准确率提升19.7%。
Jacob Fein-Ashley, Paria Rashidinejad
多流LLM通过并行思维、输入和输出流解锁语言模型,提升效率和安全性。
Guinan Su, Yanwu Yang, Xueyan Li 等
提出HDET方法,通过自动学习率探索提高大模型训练的优化质量和泛化能力。
Hailing Cheng, Tao Huang, Chen Zhu 等
通过隐式探索在带有旁观反馈的赌博问题中实现高效学习,算法具有接近最优的遗憾保证。
Tomas Kocak, Gergely Neu, Michal Valko 等
Kolmogorov-Arnold网络的普适性只需一个非仿射函数。
Vugar Ismailov
提出了一种基于配点的稳健物理信息神经网络(CRVPINN),用于模拟斯瓦尔巴群岛斯匹次卑尔根岛上热逆温条件下的污染传播。
Leszek Siwik, Maciej Sikora, Natalia Leszczyńska 等
通过主动实验选择的预算高效缩放律拟合方法,仅用10%预算实现全数据集拟合效果。
Sijie Li, Shanda Li, Haowei Lin 等
使用BantuMorph v7模型从现代数据中恢复班图语言的历史词汇结构,验证了90.9%的名词候选与原始班图形式一致。
Hillary Mutisya, John Mugane
通过跨语言迁移学习和无监督聚类实现低资源班图语言零样本形态发现。
Hillary Mutisya, John Mugane
WG-SRC通过白盒信号子空间探测实现图数据集的操作特征指纹,提升节点分类准确率。
Yuchen Xiong, Swee Keong Yeap, Zhen Hong Ban