Covering Human Action Space for Computer Use: Data Synthesis and Benchmark
CUActSpot基准测试通过数据合成和多模态评估提升GUI复杂交互性能,Phi-Ground-Any-4B模型表现优异。
Miaosen Zhang, Xiaohan Zhao, Zhihong Tan 等
CUActSpot基准测试通过数据合成和多模态评估提升GUI复杂交互性能,Phi-Ground-Any-4B模型表现优异。
Miaosen Zhang, Xiaohan Zhao, Zhihong Tan 等
CausalCine通过因果自回归框架实现实时多镜头视频生成,显著提升了跨镜头一致性和交互性。
Yihao Meng, Zichen Liu, Hao Ouyang 等
AlphaGRPO通过分解验证奖励提升UMMs的多模态生成能力,显著提高GenEval等基准测试表现。
Runhui Huang, Jie Wu, Rui Yang 等
Pion优化器通过正交等价变换保持光谱,提升大语言模型训练稳定性。
Kexuan Shi, Hanxuan Li, Zeju Qiu 等
LongMemEval-V2通过AgentRunbook-C实现72.5%的准确率,评估代理的长期记忆能力。
Di Wu, Zixiang Ji, Asmi Kawatkar 等
通过测试时LLM指导的任务自适应嵌入优化,提升零样本搜索和分类性能,提升达25%。
Ariel Gera, Shir Ashury-Tahan, Gal Bloch 等
提出一种稀疏到密集奖励原则,结合GRPO和OPD,提升语言模型后训练性能。
Yuanda Xu, Hejian Sang, Zhengze Zhou 等
ToolCUA通过分阶段训练实现GUI-工具路径选择,提升46.85%准确率。
Xuhao Hu, Xi Zhang, Haiyang Xu 等
OmniNFT通过模态感知的在线扩散强化学习框架提升音视频生成的质量和同步性。
Guohui Zhang, XiaoXiao Ma, Jie Huang 等
MEME通过多实体和动态记忆评估揭示现有系统在依赖推理任务上的不足。
Seokwon Jung, Alexander Rubinstein, Arnas Uselis 等
本文提出了一种无参数在线K-Means路由器,通过几何耦合实现有效的专家分配,降低负载不平衡,仅略微增加困惑度。
Sagi Ahrac, Noya Hochwald, Mor Geva
研究提出了一种评估基于评分标准的强化学习中奖励欺骗的方法,发现即使在强验证下,奖励欺骗仍然存在。
Anas Mahmoud, MohammadHossein Rezaei, Zihao Wang 等
KV-Fold:一种无需训练的长上下文推理协议,实现100%精确匹配检索。
Alireza Nadali, Patrick Cooper, Ashutosh Trivedi 等
Attractor模型通过固定点求解提升语言建模和推理,训练效率提高46.6%,准确率提升19.7%。
Jacob Fein-Ashley, Paria Rashidinejad
DR-Gym环境使用强化学习优化电力需求响应,提升电网灵活性和能源可负担性。
Jose E. Aguilar Escamilla, Lingdong Zhou, Xiangqi Zhu 等
多流LLM通过并行思维、输入和输出流解锁语言模型,提升效率和安全性。
Guinan Su, Yanwu Yang, Xueyan Li 等
TextSeal通过双密钥生成和熵加权评分实现LLM水印,提升检测强度且无失真。
Tom Sander, Hongyan Chang, Tomáš Souček 等
提出基于AI/ML的6G移动性解决方案,使用真实数据集优化切换和波束管理。
Mannam Veera Narayana, Rohit Singh, Deepa M. R 等
通过计算社会科学框架,审计LLM生成的政治话语在九个危机事件中的表现,发现其情感更负面且结构更一致。
Gunjan, Sidahmed Benabderrahmane, Talal Rahwan
FuTCR框架在持续全景分割中提升新类全景质量达28%,同时提高基础类性能。
Nicholas Ikechukwu, Keanu Nichols, Deepti Ghadiyaram 等