Visual-ERM: Reward Modeling for Visual Equivalence
Visual-ERM通过细粒度视觉奖励提升视觉到代码任务性能,显著超越现有模型。
Ziyu Liu, Shengyuan Ding, Xinyu Fang 等
Visual-ERM通过细粒度视觉奖励提升视觉到代码任务性能,显著超越现有模型。
Ziyu Liu, Shengyuan Ding, Xinyu Fang 等
STEVO-Bench评估视频世界模型在观察中断时的状态演化能力,揭示其局限性。
Ziqi Ma, Mengzhan Liufu, Georgia Gkioxari
InterEdit通过语义感知计划令牌对齐和交互感知频率令牌对齐,实现多人人体3D动作编辑。
Yebin Yang, Di Wen, Lei Qi 等
提出交替梯度流效用(AGF),在ImageNet-1K上实现75%压缩时避免结构崩溃。
Tianhao Qian, Zhuoxuan Li, Jinde Cao 等
EVATok通过自适应长度视频标记化实现高效视觉自回归生成,平均节省24.4%标记。
Tianwei Xiong, Jun Hao Liew, Zilong Huang 等
MM-CondChain通过VPIR实现视觉深层组合推理,最强模型仅达53.33 Path F1。
Haozhan Shen, Shilin Yan, Hongwei Xue 等
OmniStream通过因果时空注意力和3D旋转位置嵌入实现视觉流的感知、重建和动作,跨29个数据集表现优异。
Yibin Yan, Jilan Xu, Shangzhe Di 等
DreamVideo-Omni通过潜在身份强化学习实现多主体视频定制,提升身份保真度和运动控制精度。
Yujie Wei, Xinyu Liu, Shiwei Zhang 等
AutoGaze通过自回归选择多尺度视频片段,减少冗余,提升效率,支持1K帧4K视频处理。
Baifeng Shi, Stephanie Fu, Long Lian 等
EndoCoT通过激活MLLMs的推理潜力,实现了92.1%的准确率,比基线高8.3%。
Xuanlang Dai, Yujie Zhou, Long Xing 等
BiGain通过频率分离实现加速扩散模型的生成和分类双重优化,提升分类准确率7.15%,FID提高0.34。
Jiacheng Liu, Shengkun Tang, Jiacheng Cui 等
RDNet通过动态自适应模块提高光学遥感图像中的显著目标检测精度。
Bin Wan, Runmin Cong, Xiaofei Zhou 等
O3N框架通过极坐标螺旋拓扑实现360°空间表示,在QuadOcc和Human360Occ基准上达到最先进性能。
Mengfei Duan, Hao Shi, Fei Teng 等
提出UniCAC基准,评估24种算法在不同光学像差条件下的表现。
Xiaolong Qian, Qi Jiang, Yao Gao 等
COMIC系统利用LLM评论家生成接近专业水平的喜剧短片。
Susung Hong, Brian Curless, Ira Kemelmacher-Shlizerman 等
V2M-Zero通过事件曲线实现视频到音乐的时间同步生成,在多个数据集上提升音质和节拍对齐。
Yan-Bo Lin, Jonah Casebeer, Long Mai 等
DynVLA通过动态CoT预测紧凑的世界动态,在NAVSIM等数据集上表现优异。
Shuyao Shang, Bing Zhan, Yunfei Yan 等