Deployment-Aligned Low-Precision Neural Architecture Search for Spaceborne Edge AI
通过部署一致的低精度神经架构搜索,提升空间边缘AI的精度和效率,mIoU达0.826。
Parampuneet Kaur Thind, Vaibhav Katturu, Giacomo Zema 等
通过部署一致的低精度神经架构搜索,提升空间边缘AI的精度和效率,mIoU达0.826。
Parampuneet Kaur Thind, Vaibhav Katturu, Giacomo Zema 等
DeepTaxon:一个用于统一物种识别和发现的可解释检索增强多模态框架,显著提高识别和发现准确率。
Jiawei Wang, Ming Lei, Yaning Yang 等
Learn&Drop方法通过层丢弃加速CNN训练,ResNet-152前向传播FLOPs减少83.74%。
Giorgio Cruciata, Luca Cruciata, Liliana Lo Presti 等
SS3D通过YouTube-8M数据集实现了从单目视频中自监督3D估计的端到端训练。
Marwane Hariat, Gianni Franchi, David Filliat 等
PASR方法在Pix3D和Pascal3D数据集上实现了81.59%和76.43%的Top-1检索准确率。
Jiaxin Shi, Guofeng Zhang, Wufei Ma 等
利用TARA框架实现群居牲畜的非侵入性3D识别,达到100%识别准确率。
Shiva Paudel, TsungCheng Tsai, Dongyi Wang
EV-CLIP通过视觉提示高效适配CLIP,实现视觉挑战下的少样本动作识别。
Hyo Jin Jon, Longbin Jin, Eun Yi Kim
FlowAnchor通过空间注意力和自适应调制稳定视频编辑信号,实现多目标场景高效编辑。
Ze Chen, Lan Chen, Yuanhang Li 等
通过联合模拟框架评估虚拟电厂调度算法在智能配电系统中的性能,揭示通信延迟对控制效果的显著影响。
Houchao Gan
MUA方法通过小波引导的多层空间因子化混合形状,实现高达2000倍的计算成本降低。
Heming Zhu, Guoxing Sun, Marc Habermann
SynAgent通过单体到协作代理协同,实现通用化的人形协作操控,显著提升多种物体几何的泛化能力。
Wei Yao, Haohan Ma, Hongwen Zhang 等
MetaCloak-JPEG通过可微JPEG层提高对DreamBooth深度伪造的JPEG鲁棒性,PSNR达32.7 dB。
Tanjim Rahaman Fardin, S M Zunaid Alam, Mahadi Hasan Fahim 等
OneVL通过视觉-语言解释实现一步潜在推理和规划,超越显式CoT,达到答案级延迟。
Jinghui Lu, Jiayi Guan, Zhijian Huang 等
XEmbodied模型通过3D适配器和高效图像-实体适配器增强几何和物理线索,提升VLA模型性能。
Kangan Qian, ChuChu Xie, Yang Zhong 等
LaviGen框架利用3D生成模型实现自回归布局生成,在LayoutVLM基准上物理合理性提高19%。
Haoran Feng, Yifan Niu, Zehuan Huang 等
本研究系统评估了多种视觉语言模型在国家级图像地理定位中的表现,揭示了其在捕捉细粒度地理线索方面的局限性。
Siddhant Bharadwaj, Ashish Vashist, Fahimul Aleem 等
CollideNet通过分解时序模式实现多尺度视频表示学习,显著提升碰撞时间预测精度。
Nishq Poorav Desai, Ali Etemad, Michael Greenspan
提出了一种基于YOLOv8n和RexNet-150的两阶段深度学习框架,实现了95%的作弊检测准确率。
Van-Truong Le, Le-Khanh Nguyen, Trong-Doanh Nguyen
SENSE利用立体视觉和视觉语言模型提升开放词汇语义分割,在PhraseStereo上提高2.9%精度。
Thomas Campagnolo, Ezio Malis, Philippe Martinet 等
Bi-CMPStereo框架在事件-帧非对称立体匹配中显著提高了准确性和泛化性。
Ninghui Xu, Fabio Tosi, Lihui Wang 等