DeepSWIP: Quotient-WMC Counterfactuals for Neural Probabilistic Logic Programs
DeepSWIP利用神经材料化与WMC实现深度概率逻辑程序的单世界反事实推理,提升推理速度2.14倍。
Saimun Habib, Vaishak Belle, Fengxiang He
DeepSWIP利用神经材料化与WMC实现深度概率逻辑程序的单世界反事实推理,提升推理速度2.14倍。
Saimun Habib, Vaishak Belle, Fengxiang He
提出多智能体交易记忆(MATM)框架,通过共享轨迹提升异构智能体群体的任务表现,实验显示成功率提升8%,步骤减少0.59。
To Eun Kim, Xuhong He, Dishank Jain 等
提出DRFLOW基准,结合7项指标评估个性化深度研究工作流预测,涵盖100任务和1246步骤。
Md Tawkat Islam Khondaker, Raymond Li, Muhammad Abdul-Mageed 等
提出WorkflowView框架,利用大语言模型(LLMs)将低级行为序列抽象为高层次活动,在浏览器、MOOC和Word文档中实现高准确性(最高F1=0.90),实现跨域通用性。
Gaurav Verma, Scott Counts
利用大语言模型(如Claude 4.7)自动评估社会行为科学研究的可复现性,通过效果量匹配和结论一致性验证,提升审查效率。
Tobias Holtdirk, Pietro Marcolongo, Anna Steinberg Schulten 等
本论文提出反馈对齐机制在自蒸馏中的作用,通过三种反馈设计(二元奖励、参考解、逐步批评)验证,结构对齐显著提升性能。
Semih Kara, Oğuzhan Ersoy
提出HiViG,结合历史状态追踪与视觉基础的测试时干预框架,提升GUI任务成功率,Qwen3-VL-32B提升5.8%,Gemini-3-Flash提升9%。
Jaewoo Lee, Zaid Khan, Archiki Prasad 等
采用个体任务框架,利用Perplexity的搜索与Computer数据,验证AI代理提升自动化、效率与工作范围的实证效果。
Jeremy Yang, Kate Zyskowski, Noah Yonack 等
MLEvolve是一种基于大语言模型的自我演化框架,用于端到端机器学习算法自动发现,在12小时预算内达成65.3%的奖牌率。
Shangheng Du, Xiangchao Yan, Jinxin Shi 等
SafeSteer通过局部化的策略蒸馏,仅在安全标记上调整,有效平衡安全性与模型能力,显著减少对通用数据的依赖。
Hao Li, Jingkun An, Zijun Song 等
Iteris为计算数学中的开放问题设计的智能研究系统,通过生成数值证据和证明草稿,辅以专家验证,推动理论验证。
Leheng Chen, Zihao Liu, Wanyi He 等
提出基于情境的论证框架(CDAFs),通过激活不同视角实现策略性攻击控制,分析复杂性界限。
Albert Sadowski, Jarosław A. Chudziak
提出VisAnomReasoner,通过微调大规模视觉-语言模型实现时间序列异常检测,Precision提升21.23%,F1提升23.87%。
Xiaona Zhou, Muntasir Wahed, Tianjiao Yu 等
提出SchGen模型,基于语义编码的PCB原理图生成,从自然语言请求到可编辑电路图,实现82%的有效电路率。
Qinpei Luo, Ruichun Ma, Xinyu Zhang 等
提出CCO,通过集成多重监督信号,利用Conformal Decision Theory实现在线校准,确保AI系统行为符合预设安全目标。
William Overman, Mohsen Bayati
MUSE-Autoskill通过技能生命周期管理提升任务成功率,技能复用率达68.4%。
Huawei Lin, Peng Li, Jie Song 等
BRANE方法通过LLM提取查询特征,实现MuSiQue等数据集89%成本节省的动态检索配置优化。
Melissa Z. Pan, Negar Arabzadeh, Mathew Jacob 等
MOSS系统通过源码层自我改写,在OpenClaw上单轮演化将四任务平均评分从0.25提升至0.61。
Qianshu Cai, Yonggang Zhang, Xianzhang Jia 等
LCGuard通过对Transformer KV缓存进行对抗训练变换,有效降低多智能体系统中的敏感信息重构率,保持任务性能。
Sadia Asif, Mohammad Mohammadi Amiri, Momin Abbas 等
ToolCUA通过分阶段训练实现GUI-工具路径选择,提升46.85%准确率。
Xuhao Hu, Xi Zhang, Haiyang Xu 等