DRFLOW: A Deep Research Benchmark for Personalized Workflow Prediction

TL;DR

提出DRFLOW基准，结合7项指标评估个性化深度研究工作流预测，涵盖100任务和1246步骤。

cs.AI 🔴 高级 2026-06-17 26 次浏览

Md Tawkat Islam Khondaker Raymond Li Muhammad Abdul-Mageed Laks V. S. Lakshmanan Issam H. Laradji

深度研究工作流预测个性化多源信息整合评估指标

核心发现

方法论

本文提出了DRFLOW基准，设计了涵盖多源异构信息的任务生成流程，结合公司端和用户端证据，利用端到端数据合成管线确保任务的真实性与多样性。核心算法包括基于知识图谱的工作流结构建模、多源信息检索与融合机制，以及多指标评估体系。评估指标覆盖事实支撑、步骤恢复、结构排序、条件解析与个性化适应，结合7项诊断指标对预测结果进行全面衡量。提出的DRFLOW-Agent（DRFA）采用多步骤推理框架，结合深度学习模型（如GPT-3.5、Claude-Opus-4.5）实现个性化工作流预测，优化了信息检索、证据融合与结构生成流程。

关键结果

在五个不同领域的100个任务中，DRFA相较于强基线模型平均F1得分提升10.02%，在事实支撑和结构排序指标上表现尤为优越。具体而言，DRFA在结构排序指标上达到了85.99%，明显优于传统模型的47.99%。在个性化指标方面，DRFA在条件解析和个性化适应上均实现了显著提升，表明模型在复杂多源信息融合和个性化任务中具有较强的适应能力。
通过对不同模型（如GPT-5.2、DeepSeek-v3.2）在相同任务上的对比实验，验证了DRFA在多指标上的优越性，尤其在事实支撑和条件解析方面的得分提升超过20%。此外，消融实验显示，结合多源信息融合机制和结构化预测模块是提升性能的关键因素。
在实际应用中，DRFLOW的指标体系有效反映了深度研究系统在真实场景中的表现潜力，为未来智能助手在企业知识管理、流程自动化等领域的应用提供了理论基础和技术支撑。

研究意义

该研究突破了以往只关注报告或摘要的深度研究评估范式，提出了面向复杂工作流预测的多维指标体系，强调个性化与多源信息整合的重要性。其在企业智能化、流程自动化、知识管理等领域具有深远影响，有助于推动深度研究系统从被动信息汇总向主动行动指导转变。通过引入多源异构信息融合机制，显著提升了系统在复杂环境下的适应能力，为未来构建更智能、更个性化的企业AI提供了技术基础。

技术贡献

本文的技术创新主要体现在：1）提出结合多源信息的个性化工作流预测基准，填补了现有深度研究评估中缺乏结构化、个性化任务的空白；2）设计了端到端的合成数据生成管线，确保任务的真实性和多样性，支持跨领域扩展；3）提出七项诊断指标，系统评估事实支撑、步骤恢复、结构排序、条件解析和个性化能力，提供了全面的性能衡量体系；4）开发了DRFLOW-Agent，采用多步骤推理和结构化预测机制，有效融合公司端和用户端证据，提升预测准确性。

新颖性

本研究的创新点在于首次提出面向深度研究的个性化工作流预测基准，结合多源异构信息，强调结构化和条件解析能力，超越了传统报告生成或问答系统的评估范式。与现有工作（如FlowBench、AutoFlow）不同，DRFLOW不仅关注信息检索，还强调工作流的结构完整性和个性化适应，提出了多指标评估体系，系统性地衡量模型在复杂多源环境中的表现。这一创新为深度研究系统的实用性和智能化提供了新的技术路径。

局限性

当前模型在极端复杂或信息噪声较大的场景下仍表现不足，部分指标如条件解析和个性化适应存在一定的误差，说明模型在多源信息融合和推理方面仍有提升空间。
数据合成流程虽确保了任务的多样性和真实性，但在实际应用中，真实场景的复杂性和多样性可能超出合成数据的覆盖范围，未来需引入真实企业数据进行验证。
模型的计算成本较高，尤其是在多源信息检索和结构化预测阶段，限制了其在大规模实时应用中的部署潜力。未来需优化模型架构和推理流程以提升效率。

未来方向

未来工作将聚焦于引入真实企业数据，验证模型在实际场景中的适应性和鲁棒性。同时，将探索更高效的多源信息融合算法，提升模型在复杂环境下的性能。还计划扩展指标体系，加入用户反馈机制，增强模型的个性化能力。此外，将结合强化学习等技术，优化工作流生成的连续性和可解释性，推动深度研究系统向更智能、更自主的方向发展。

AI 总览摘要

深度研究（Deep Research, DR）系统作为人工智能领域的重要研究方向，旨在实现复杂信息的自动化搜索、推理与知识整合。传统的深度研究评估多集中于报告生成、答案摘要等任务，难以全面衡量系统在结构化、个性化工作流预测中的能力。本文提出了DRFLOW基准，旨在填补这一空白。

DRFLOW通过设计100个跨五个领域的任务，结合多源异构信息，模拟真实企业环境中的深度研究场景。每个任务由公司端的通用流程和用户端的个性化证据共同驱动，要求模型不仅识别相关证据，还能推断出完整的行动步骤序列。任务生成采用端到端的数据合成流程，确保任务的真实性和多样性，涵盖公司政策、文档、邮件、聊天记录等多种信息源。

为了全面评估模型性能，本文提出了七项诊断指标，包括事实支撑、步骤恢复、结构排序、条件解析和个性化适应。这些指标系统性地衡量模型在信息检索、推理、结构生成和个性化方面的能力。基于此，开发了DRFLOW-Agent（DRFA），采用多步骤推理框架，结合深度学习模型（如GPT-3.5、Claude-Opus-4.5）实现个性化工作流预测。

实验结果显示，DRFA在五个不同领域的任务中，相较于强基线模型平均提升10.02%的F1分数，特别在结构排序和条件解析指标上表现优异。这表明模型在多源信息融合和复杂推理方面具有较强的潜力。该研究不仅推动了深度研究系统的结构化评估体系，也为企业知识管理、流程自动化提供了技术基础。

未来，作者计划引入真实企业数据，优化模型效率，增强系统的鲁棒性和适应性。同时，将扩展指标体系，结合用户反馈，提升个性化能力，推动深度研究系统向更智能、更自主的方向发展。这一工作为深度研究的学术探索和实际应用提供了重要的技术支撑，具有广泛的应用前景和深远的行业影响。

深度解读

原文摘要

Deep research (DR) systems are increasingly used for complex information-seeking tasks, but existing works mainly focus on generating reports and summaries. In contrast, many enterprise tasks instead require an agent to identify concrete workflows which is a sequence of action-steps. For example, rather than summarizing budgeting policies, an agent should be able to determine the steps needed to answer a question such as: "How do I request new headcount given a fixed budget?". Therefore, we introduce DRFLOW, a benchmark for evaluating personalized workflows predicted by agents from heterogeneous sources. Each task requires the agent to identify relevant evidence from scattered sources, then use that evidence to predict the correct action-step sequence for the user's task. DRFLOW contains 100 tasks across five domains, with 1,246 reference workflow steps grounded in more than 3,900 sources. We define seven diagnostic metrics covering factual grounding, step recovery, structural ordering, condition resolution, and personalization. We further present DRFLOW-Agent (DRFA), a workflow-oriented reference agent to predict personalized workflow. We show that although DRFA improves over strong baseline agents (upto 10.02% average F1 score), there is substantial room for improvement remains across these workflow metrics, indicating that predicting complete and correct personalized workflows remains a challenging frontier for deep research.

cs.AI cs.MA

DRFLOW: A Deep Research Benchmark for Personalized Workflow Prediction

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度解读

原文摘要

相关论文

DeepSWIP: Quotient-WMC Counterfactuals for Neural Probabilistic Logic Programs

Multi-Agent Transactive Memory

Abstracting Cross-Domain Action Sequences into Interpretable Workflows

Automated reproducibility assessments in the social and behavioral sciences using large language models

The Role of Feedback Alignment in Self-Distillation

A History-Aware Visually Grounded Critic for Computer Use Agents