Paper 解读 - Arxiv 论文中文解读平台

cs.CV 2604.24492

Deployment-Aligned Low-Precision Neural Architecture Search for Spaceborne Edge AI

通过部署一致的低精度神经架构搜索，提升空间边缘AI的精度和效率，mIoU达0.826。

Parampuneet Kaur Thind, Vaibhav Katturu, Giacomo Zema 等

2026-04-27 36

cs.CV 2604.24029

DeepTaxon: An Interpretable Retrieval-Augmented Multimodal Framework for Unified Species Identification and Discovery

DeepTaxon：一个用于统一物种识别和发现的可解释检索增强多模态框架，显著提高识别和发现准确率。

Jiawei Wang, Ming Lei, Yaning Yang 等

2026-04-27 34

cs.CV 2604.23403

Learn&Drop: Fast Learning of CNNs based on Layer Dropping

Learn&Drop方法通过层丢弃加速CNN训练，ResNet-152前向传播FLOPs减少83.74%。

Giorgio Cruciata, Luca Cruciata, Liliana Lo Presti 等

2026-04-26 2 引用 34

cs.CV 2604.22686

SS3D: End2End Self-Supervised 3D from Web Videos

SS3D通过YouTube-8M数据集实现了从单目视频中自监督3D估计的端到端训练。

Marwane Hariat, Gianni Franchi, David Filliat 等

2026-04-25 47

cs.CV 2604.22658

PASR: Pose-Aware 3D Shape Retrieval from Occluded Single Views

PASR方法在Pix3D和Pascal3D数据集上实现了81.59%和76.43%的Top-1检索准确率。

Jiaxin Shi, Guofeng Zhang, Wufei Ma 等

2026-04-24 41

cs.CV 2604.22657

A Non-Invasive Alternative to RFID: Self-Sufficient 3D Identification of Group-Housed Livestock

利用TARA框架实现群居牲畜的非侵入性3D识别，达到100%识别准确率。

Shiva Paudel, TsungCheng Tsai, Dongyi Wang

2026-04-24 33

cs.CV 2604.22595

EV-CLIP: Efficient Visual Prompt Adaptation for CLIP in Few-shot Action Recognition under Visual Challenges

EV-CLIP通过视觉提示高效适配CLIP，实现视觉挑战下的少样本动作识别。

Hyo Jin Jon, Longbin Jin, Eun Yi Kim

2026-04-24 29

cs.CV 2604.22586

FlowAnchor: Stabilizing the Editing Signal for Inversion-Free Video Editing

FlowAnchor通过空间注意力和自适应调制稳定视频编辑信号，实现多目标场景高效编辑。

Ze Chen, Lan Chen, Yuanhang Li 等

2026-04-24 17

cs.CV 2604.19715

A Network-Aware Evaluation of Distributed Energy Resource Control in Smart Distribution Systems

通过联合模拟框架评估虚拟电厂调度算法在智能配电系统中的性能，揭示通信延迟对控制效果的显著影响。

Houchao Gan

2026-04-22 52

cs.CV 2604.18583

MUA: Mobile Ultra-detailed Animatable Avatars

MUA方法通过小波引导的多层空间因子化混合形状，实现高达2000倍的计算成本降低。

Heming Zhu, Guoxing Sun, Marc Habermann

2026-04-21 34

cs.CV 2604.18557

SynAgent: Generalizable Cooperative Humanoid Manipulation via Solo-to-Cooperative Agent Synergy

SynAgent通过单体到协作代理协同，实现通用化的人形协作操控，显著提升多种物体几何的泛化能力。

Wei Yao, Haohan Ma, Hongwen Zhang 等

2026-04-21 31

cs.CV 2604.18537

MetaCloak-JPEG: JPEG-Robust Adversarial Perturbation for Preventing Unauthorized DreamBooth-Based Deepfake Generation

MetaCloak-JPEG通过可微JPEG层提高对DreamBooth深度伪造的JPEG鲁棒性，PSNR达32.7 dB。

Tanjim Rahaman Fardin, S M Zunaid Alam, Mahadi Hasan Fahim 等

2026-04-21 55

cs.CV 2604.18486

OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation

OneVL通过视觉-语言解释实现一步潜在推理和规划，超越显式CoT，达到答案级延迟。

Jinghui Lu, Jiayi Guan, Zhijian Huang 等

2026-04-21 32

cs.CV 2604.18484

XEmbodied: A Foundation Model with Enhanced Geometric and Physical Cues for Large-Scale Embodied Environments

XEmbodied模型通过3D适配器和高效图像-实体适配器增强几何和物理线索，提升VLA模型性能。

Kangan Qian, ChuChu Xie, Yang Zhong 等

2026-04-21 33

cs.CV 2604.16299

Repurposing 3D Generative Model for Autoregressive Layout Generation

LaviGen框架利用3D生成模型实现自回归布局生成，在LayoutVLM基准上物理合理性提高19%。

Haoran Feng, Yifan Niu, Zehuan Huang 等

2026-04-18 32

cs.CV 2604.16248

Where Do Vision-Language Models Fail? World Scale Analysis for Image Geolocalization

本研究系统评估了多种视觉语言模型在国家级图像地理定位中的表现，揭示了其在捕捉细粒度地理线索方面的局限性。

Siddhant Bharadwaj, Ashish Vashist, Fahimul Aleem 等

2026-04-18 40

cs.CV 2604.16240

CollideNet: Hierarchical Multi-scale Video Representation Learning with Disentanglement for Time-To-Collision Forecasting

CollideNet通过分解时序模式实现多尺度视频表示学习，显著提升碰撞时间预测精度。

Nishq Poorav Desai, Ali Etemad, Michael Greenspan

2026-04-18 29

cs.CV 2604.16234

A Two-Stage, Object-Centric Deep Learning Framework for Robust Exam Cheating Detection

提出了一种基于YOLOv8n和RexNet-150的两阶段深度学习框架，实现了95%的作弊检测准确率。

Van-Truong Le, Le-Khanh Nguyen, Trong-Doanh Nguyen

2026-04-18 29

cs.CV 2604.15946

SENSE: Stereo OpEN Vocabulary SEmantic Segmentation

SENSE利用立体视觉和视觉语言模型提升开放词汇语义分割，在PhraseStereo上提高2.9%精度。

Thomas Campagnolo, Ezio Malis, Philippe Martinet 等

2026-04-17 36

cs.CV 2604.15312

Bidirectional Cross-Modal Prompting for Event-Frame Asymmetric Stereo

Bi-CMPStereo框架在事件-帧非对称立体匹配中显著提高了准确性和泛化性。

Ninghui Xu, Fabio Tosi, Lihui Wang 等

2026-04-17 34