MM-WebAgent: A Hierarchical Multimodal Web Agent for Webpage Generation
MM-WebAgent通过分层规划和自反思生成一致的多模态网页,提升了布局和风格一致性。
Yan Li, Zezi Zeng, Yifan Yang 等
MM-WebAgent通过分层规划和自反思生成一致的多模态网页,提升了布局和风格一致性。
Yan Li, Zezi Zeng, Yifan Yang 等
RAD-2通过生成器-判别器框架将强化学习扩展到自动驾驶中,降低56%碰撞率。
Hao Gao, Shaoyu Chen, Yifan Zhu 等
提出多阶段上下文丰富策略,改善视觉语言模型在人类情感识别中的表现。
Madhav Agarwal, Sotirios A. Tsaftaris, Laura Sevilla-Lara 等
SegWithU利用扰动能量进行单次前向传递的不确定性建模,实现医学图像分割的风险感知。
Tianhao Fu, Austin Wang, Charles Chen 等
Latent-WAM通过空间感知和动态信息的潜在世界表示,实现高效的端到端自动驾驶,NAVSIM v2上得分89.3。
Linbo Wang, Yupeng Zheng, Qiang Chen 等
EndoVGGT通过DeGAT模块提升手术3D重建的深度估计,PSNR提高24.6%,SSIM提高9.1%。
Falong Fan, Yi Xie, Arnis Lektauers 等
VFIG利用视觉-语言模型将复杂图形转换为SVG,VLM-Judge得分0.829。
Qijia He, Xunmei Liu, Hammaad Memon 等
MedObvious通过临床分诊揭示VLMs中的医疗Moravec悖论,提出1880项任务基准测试。
Ufaq Khan, Umair Nawaz, L D M S S Teja 等
UniGRPO通过GRPO优化文本和图像生成策略,提升推理驱动的视觉生成质量。
Jie Liu, Zilyu Ye, Linxiao Yuan 等
DA-Flow结合扩散模型与卷积特征,显著提升退化视频的光流估计精度。
Jaewon Min, Jaeeun Lee, Yeji Choi 等
WildWorld数据集提供了450多种动作和显式状态注释,支持生成式ARPG的动态世界建模。
Zhen Li, Zian Meng, Shuwei Shi 等
VISOR方法通过稀疏选择视觉语言交互,提升大规模视觉语言模型效率,减少推理成本。
Adrian Bulat, Alberto Baldrati, Ioannis Maniadis Metaxas 等
AgentRVOS通过SAM3和MLLM结合,实现零样本视频对象分割,性能领先。
Woojeong Jin, Jaeho Lee, Heeseong Shin 等
3DCity-LLM通过粗到细特征编码策略提升3D城市级感知与理解,数据集达1.2M样本。
Yiping Chen, Jinpeng Li, Wenyu Ke 等
VideoDetective通过结合外部查询和内部相关性,实现长视频理解,提升了VideoMME-long准确率7.5%。
Ruoliu Yang, Chu Wu, Caifeng Shan 等
UNITE通过统一的自编码器实现令牌化和潜在扩散,ImageNet上FID达到2.12。
Shivam Duggal, Xingjian Bai, Zongze Wu 等
DualCoT-VLA通过并行推理实现视觉-语言-动作模型的视觉语言思维链,提升复杂任务的执行效率。
Zhide Zhong, Junfeng Li, Junjie He 等
3D-Layout-R1通过场景图推理实现语言指导的空间布局编辑,IoU提升15%,中心距离误差减少25%。
Haoyu Zhen, Xiaolong Li, Yilin Zhao 等
LumosX通过关系自注意力和跨注意力实现个性化视频生成,提升面部属性对齐。
Jiazheng Xing, Fei Du, Hangjie Yuan 等
VideoSeek通过视频逻辑流主动寻找关键证据,减少93%帧使用,提升LVBench准确率10.2个百分点。
Jingyang Lin, Jialian Wu, Jiang Liu 等