Learning Global Motion with Compact Gaussians for Feed-Forward 4D Reconstruction
C4G提出基于时间条件的紧凑高斯查询,利用全局特征聚合实现无场景优化的4D动态场景重建,显著减少高斯数目。
Mungyeom Kim, Minkyeong Jeon, Honggyu An 等
C4G提出基于时间条件的紧凑高斯查询,利用全局特征聚合实现无场景优化的4D动态场景重建,显著减少高斯数目。
Mungyeom Kim, Minkyeong Jeon, Honggyu An 等
VideoMLA采用低秩潜在KV缓存,显著降低92.7%的内存,用于长时长视频生成,保持高质量。
Hidir Yesiltepe, Jiazhen Hu, Tuna Han Salih Meral 等
NeuROK通过学习低维潜在空间实现4D动态模拟,利用变换器编码器-解码器架构在大规模数据集上训练,突破传统物理模型限制。
Chen Geng, Guangzhao He, Yue Gao 等
YoCausal利用逆向视频和认知科学启发的双层指标,评估13个视频扩散模型的因果理解能力。
You-Zhe Xie, Yu-Hsuan Li, Jie-Ying Lee 等
引入GPIC,包含约280亿像素的庞大图像语料库,用于推动视觉生成模型的发展。
Keshigeyan Chandrasegaran, Kyle Sargent, Suchir Agarwal 等
提出NEO-ov,一种端到端无外部编码器的原生一体化视觉-语言模型,支持单图、多图和视频理解,显著提升细粒度感知与空间推理能力。
Haiwen Diao, Jiahao Wang, Penghao Wu 等
提出VisualMem,结合结构化视觉记忆模块,有效增强个性化AI的长期视觉记忆能力,显著优于现有方法。
Viet Nguyen, Thao Nguyen, Vishal M. Patel 等
LocateAnything基于并行框解码,训练138M样本,显著提升定位速度与精度
Shihao Wang, Shilong Liu, Yuanguo Kuang 等
基于DINO表征的条件扩散模型实现高质量且可控图像生成,LSUN和CelebA数据集验证。
Nithesh Chandher Karthikeyan, Jonas Unger, Gabriel Eilertsen
提出DeltaDirect方法,MoDirect数据集,合成域准确率从25.9%提升至85.4%。
Jongseo Lee, Hyuntak Lee, Sunghun Kim 等
MotiMotion结合视觉语言模型推理与置信度调控,实现运动控制视频生成,MotiBench评测优于MagicMotion和Wan-Move。
Lee Hsin-Ying, Hanwen Jiang, Yiqun Mei 等
DecQ通过引入细节浓缩查询,提升RAE重建PSNR至22.76dB,生成FID降至1.41,计算开销仅增3.9%。
Tianhang Wang, Yitong Chen, Wei Song 等
WorldKV提出基于KV缓存的检索与压缩,实现2倍吞吐量下持久一致的世界记忆。
Jung Yi, Minjae Kim, Paul Hyunbin Cho 等
AnyMo提出基于几何感知的设置无关人体运动建模,零样本识别提升11.7%,跨模态检索MRR提升28.6%。
Baiyu Chen, Zechen Li, Wilson Wongso 等
CUActSpot基准测试通过数据合成和多模态评估提升GUI复杂交互性能,Phi-Ground-Any-4B模型表现优异。
Miaosen Zhang, Xiaohan Zhao, Zhihong Tan 等
SenseNova-U1通过NEO-unify架构统一多模态理解与生成,提升视觉-语言模型性能。
Haiwen Diao, Penghao Wu, Hanming Deng 等
CausalCine通过因果自回归框架实现实时多镜头视频生成,显著提升了跨镜头一致性和交互性。
Yihao Meng, Zichen Liu, Hao Ouyang 等
AlphaGRPO通过分解验证奖励提升UMMs的多模态生成能力,显著提高GenEval等基准测试表现。
Runhui Huang, Jie Wu, Rui Yang 等
OmniNFT通过模态感知的在线扩散强化学习框架提升音视频生成的质量和同步性。
Guohui Zhang, XiaoXiao Ma, Jie Huang 等
FuTCR框架在持续全景分割中提升新类全景质量达28%,同时提高基础类性能。
Nicholas Ikechukwu, Keanu Nichols, Deepti Ghadiyaram 等