Data Journalist Agent: Transforming Data into Verifiable Multimodal Stories

TL;DR

提出Data2Story多智能体框架，将数据转化为可验证的多模态新闻，强调证据追溯和互动性。

cs.CV 🔴 高级 2026-06-10 88 次浏览

Kevin Qinghong Lin Batu EI Yuhong Shi Pan Lu Philip Torr James Zou

多模态生成数据新闻多智能体系统证据追溯可验证性

核心发现

方法论

本文设计了一个由七个专业角色组成的虚拟新闻编辑室，包括侦探（Detective）、分析师（Analyst）、编辑（Editor）、设计师（Designer）、程序员（Programmer）、审查员（Auditor）和检察官（Inspector）。每个角色负责特定任务，从数据背景搜集、统计分析、角度设定、视觉资产生成，到网页构建和验证追溯。核心技术包括基于大规模语言模型（如GPT-4）进行内容生成，结合可执行代码和外部引用实现证据链的绑定。检察官（Inspector）通过追踪每个输出元素的源代码或参考链接，确保内容的可验证性。多模态内容生成方面，采用交互式地图、音频、视频等工具，提升文章的表现力。系统在18篇不同主题的文章上进行评估，涵盖角度覆盖、用户体验、自动判定和证据追溯，显示其在透明性和可审计性方面优于传统方法。

关键结果

在18篇文章中，Data2Story的内容与人类专家的角度重合度达75%，同时补充了部分未覆盖的视角，展现出较强的角度多样性。
在53名人类评审中，关于视觉设计、叙事节奏、数据透明度、证据一致性和洞察价值的五个维度评分中，Data2Story生成的文章平均得分为4.2（满分5），优于传统静态图表生成系统（平均3.7），且在互动性和证据追溯方面表现突出。
自动化代理作为评判工具，模拟用户交互行为（点击、滚动），发现系统生成的多模态内容能显著提升用户的理解和信任度，证据追溯链的完整性达92%。

研究意义

该研究突破了数据新闻自动化的瓶颈，将多智能体协作引入新闻生成流程，显著提升内容的透明性、可验证性和互动性。它不仅为新闻行业提供了高效、可信的内容生产工具，也为数据驱动的公共信息传播树立了新标杆。通过证据链的绑定，增强了公众对数据报道的信任，有助于减少虚假信息的传播。该系统的多模态特性满足不同受众的需求，推动了智能新闻的技术革新与行业应用，为未来自动化新闻报道提供了可行路径。

技术贡献

本文提出的Data2Story系统结合了多智能体架构与大规模语言模型（如GPT-4）实现端到端的多模态内容生成，创新性在于引入证据追溯机制（Inspector）和多模态交互设计。系统实现了从数据背景搜集、统计分析、角度设定、视觉资产生成，到网页构建、内容验证的完整流程，显著优于现有的单一模型或静态系统。其技术核心包括基于代码的证据绑定机制，确保每个输出元素都能追溯到原始数据或参考来源，增强内容的可验证性。系统还利用多模态工具（如交互式地图、音频、视频）丰富新闻表现形式，提升用户体验。实验结果显示，该系统在内容多样性、证据透明度和用户交互方面均优于传统新闻自动化工具，为多智能体协作和多模态生成提供了新范式。

新颖性

本研究首次系统性地将多智能体架构应用于端到端的多模态数据新闻生成，特别引入证据追溯机制，确保内容的可验证性。与以往仅关注单一内容生成或静态图表的系统不同，Data2Story实现了从数据分析、内容创作到多模态交互的完整闭环，突破了自动化新闻报道在透明性和可信度上的瓶颈。其创新点还在于结合大模型与可执行代码，自动发现数据中的新角度，生成具有发现价值的原创内容。这一体系不仅提升了自动化水平，也为未来智能新闻的可信性和交互性奠定了基础。

局限性

系统在处理极端复杂或噪声较大的数据集时，证据追溯的准确性可能下降，尤其在多源信息融合时存在误差累积。
多模态内容生成依赖预训练模型和外部工具，存在生成内容不一致或偏差的风险，尤其在涉及专业领域知识时表现尚需优化。
当前系统主要面向结构化或半结构化数据，对于非结构化文本或多媒体数据的处理能力有限，未来需扩展多模态数据的理解和生成能力。

未来方向

未来将致力于增强系统的自主学习能力，提升多源数据融合的准确性，拓展非结构化数据的处理能力。同时，计划引入更复杂的用户交互机制，实现个性化定制和实时反馈。还将探索多模态内容的自动优化与编辑，提升生成内容的专业性和创新性。此外，推动系统在实际新闻生产中的集成应用，结合行业反馈不断迭代优化，最终实现全自动、可信赖的智能新闻编辑平台。

AI 总览摘要

在当今信息爆炸的时代，公众对快速、可信、丰富的新闻内容的需求日益增长。然而，传统新闻生产流程依赖于人类编辑团队，耗时耗力，且难以保证内容的透明度与可验证性。尤其在虚假信息泛滥的背景下，如何确保新闻报道的真实性成为行业亟待解决的问题。

本文提出了Data2Story，一个基于多智能体架构的端到端多模态数据新闻生成系统。该系统由七个专业角色组成，包括侦探、分析师、编辑、设计师、程序员、审查员和检察官，协同完成从数据背景搜集、统计分析、角度设定、视觉资产生成，到网页构建和内容验证的全过程。其核心创新在于引入证据追溯机制（Inspector），确保每个输出元素都能追溯到原始数据或参考来源，从而实现内容的可验证性和透明性。

系统利用大规模语言模型（如GPT-4）进行内容生成，结合可执行代码和外部引用，自动发现数据中的新角度，生成具有发现价值的原创内容。多模态内容生成方面，系统采用交互式地图、音频、视频等丰富表现形式，极大提升新闻的互动性和吸引力。通过在18篇不同主题的文章上进行评估，结果显示Data2Story在内容多样性、证据透明度和用户体验方面优于传统自动化工具，获得了53名评审的平均评分4.2（满分5分）。

该研究不仅推动了自动化新闻生成技术的边界，也为行业提供了可信赖、透明、互动的内容生产新范式。它有助于提升公众对数据报道的信任，减少虚假信息的传播，为未来智能新闻的发展提供了技术基础和实践路径。尽管如此，系统仍面临处理复杂或噪声数据的挑战，未来将继续优化多源信息融合和非结构化数据处理能力，推动其在实际新闻行业中的应用落地。

深度分析

研究背景

随着大数据和人工智能技术的发展，数据新闻逐渐成为公众理解复杂社会、经济、科技现象的重要途径。早期的自动化新闻系统主要依赖规则和模板，缺乏灵活性和深度分析能力。近年来，深度学习和大规模预训练模型（如GPT系列）推动了内容生成的变革，使得自动化新闻具备一定的创造性和多样性。代表性工作包括基于自然语言生成（NLG）的新闻摘要系统、自动化图表生成工具（如Matplotlib、Vega-Lite）以及结合搜索引擎的动态内容更新系统。然而，这些系统多局限于静态内容，缺乏端到端的多模态整合，也难以保证内容的证据追溯和可信度。现有研究多关注单一环节，如数据分析、可视化或文本生成，缺乏整体协作框架，难以实现真正的自动化、可信赖的新闻报道。随着公众对信息透明度的要求提高，如何结合多智能体协作、证据追溯机制和多模态内容生成，成为学术界和行业亟待突破的关键问题。

核心问题

当前自动化新闻系统多在单一环节表现出色，但难以实现从数据到完整新闻报道的端到端流程。主要瓶颈包括内容的可信度不足、证据链不完整、内容缺乏互动性以及多模态内容整合困难。尤其在面对复杂、多源、非结构化数据时，系统难以自动发现新颖角度，生成具有说服力的报道。此外，现有方法缺乏有效的内容追溯机制，难以让用户验证每个结论的来源。这些问题限制了自动化新闻的广泛应用，也影响了公众对自动生成内容的信任度。解决这些问题需要创新的系统架构，结合多智能体协作、可执行代码、外部引用和多模态内容技术，打造一个既高效又可信的自动化新闻平台。

核心创新

本文的核心创新在于提出Data2Story多智能体架构，结合证据追溯机制和多模态内容生成。第一，设计了七个角色协作的虚拟新闻编辑室，涵盖从背景搜集、统计分析、角度设定、视觉设计，到内容验证的全过程。第二，引入检察官（Inspector）角色，利用代码绑定和外部引用，确保每个输出元素都能追溯到原始数据或参考资料，极大提升内容的可信度。第三，采用多模态生成技术，结合交互式地图、音频、视频等丰富表现形式，增强新闻的互动性和吸引力。第四，系统利用大模型进行内容创作，自动发现数据中的新角度，生成具有原创性和发现价值的报道。这些创新点共同推动了自动化新闻的可信性、互动性和多样性，为行业提供了全新的技术范式。

方法详解

�� 侦探（Detective）角色：通过网络搜索和数据背景搜集，扩充原始数据集，形成丰富的上下文信息。
�� 分析师（Analyst）角色：利用Python代码对数据进行统计分析，支持多种统计方法（如t检验、回归分析），输出结果并绑定源代码。
�� 编辑（Editor）角色：根据分析结果，制定报道角度，筛选关键信息，撰写段落草稿。
�� 设计师（Designer）角色：根据内容需求，选择合适的多模态表现形式（地图、音频、视频），调用生成模型（如Text-to-Image、Text-to-Video）制作视觉资产。
�� 程序员（Programmer）角色：将所有元素整合成交互式网页，采用HTML、CSS和JavaScript实现多模态互动。
�� 审查员（Auditor）角色：检测网页中的潜在问题（如布局错位、互动失效），提出修正建议。
�� 检察官（Inspector）角色：追踪每个内容元素的源代码或参考链接，确保内容的可验证性。
�� 生成流程：从数据输入开始，经过背景搜集、统计分析、角度设定、视觉设计、网页构建、验证和审查，最终输出具有多模态、多证据链的新闻报道。

实验设计

系统在18篇不同主题的文章上进行评估，涵盖体育、科学、社会等领域。采用多维指标，包括角度覆盖率、用户体验评分、自动判定一致性和证据追溯完整性。评估方法包括：对比人类专家和系统生成内容的角度重合度（平均75%）、53名评审的五维评分（平均4.2/5）、模拟用户交互的自动代理行为分析，以及证据链完整率（92%）。实验中还引入不同主题数据（如2026世界杯赛程、arXiv投稿、时间利用调查）验证系统发现新角度和原创内容的能力。通过对比静态图表、纯文本和多模态内容，验证多模态生成在提升用户理解和信任方面的优势。系统还进行了消融实验，分析证据追溯机制对内容可信度的影响，显示其在提升透明度和可验证性方面具有显著效果。

结果分析

实验结果显示，Data2Story在内容多样性和可信度方面优于传统静态内容生成工具。具体表现为：在18篇文章中，内容角度重合率达75%，且补充了未覆盖的视角；53名评审中，平均评分为4.2分，明显优于传统系统的3.7分，特别在互动性和证据追溯方面表现突出；模拟用户交互分析表明，系统生成的多模态内容能提升理解度和信任感，证据链完整率达92%。此外，系统还能自主发现数据中的新角度，如2026世界杯的气候风险、arXiv投稿的学科转变、时间利用的性别差异，展现出强大的发现能力。这些结果验证了系统在内容丰富性、可信度和用户体验上的优势，为未来自动化新闻提供了新思路。

应用场景

该系统适用于新闻机构、科研报告、公共信息平台等场景，可实现自动化生成可信、多模态的新闻报道，减少人力成本，提高内容透明度。未来，结合实时数据流和个性化定制，能为用户提供定制化、互动性强的新闻体验。此外，系统还可应用于教育、政策解读、科学传播等领域，推动数据驱动的知识普及。长远来看，随着多模态技术和自动化水平的提升，未来有望实现全自动、可信赖的智能新闻编辑平台，极大改善信息传播的效率和质量。

局限与展望

系统在处理极端复杂或噪声较大的数据时，证据追溯的准确性可能下降，尤其在多源信息融合时存在误差累积。多模态内容生成依赖预训练模型，可能出现偏差或不一致，特别在专业领域知识方面表现尚需优化。当前系统主要针对结构化或半结构化数据，对于非结构化文本或多媒体数据的理解和生成能力有限，未来需扩展多模态数据的处理能力。此外，系统的计算成本较高，实时应用仍面临挑战，未来需要优化模型效率和硬件资源配置。

通俗解读非专业人士也能看懂

想象你在一个大型厨房里准备一顿丰富的晚餐。每个厨师负责不同的任务：有的负责挑选食材（侦探），有的负责切菜（分析师），有的负责调味（编辑），还有的负责摆盘（设计师），最后由厨师长（程序员）将所有菜肴摆放在一起，形成一桌美味的盛宴。为了确保每道菜的来源可靠，厨师长会追踪每个食材和调料的来源，确保没有用到不新鲜或不安全的材料。每个厨师都在协作，确保菜肴不仅好吃，还能让客人知道每个步骤和原料的出处。这个厨房的流程就像Data2Story系统，从数据搜集、分析、设计到最终呈现，每一步都透明可追溯，确保每个故事都可信、丰富且互动性强。就像一场精彩的晚宴，观众不仅能享受美味，还能知道每道菜的秘密，感受到厨师们的用心。

简单解释像给14岁少年讲一样

想象你在学校的科学实验室里做实验。你有一堆数据，比如天气变化、运动成绩或者喜欢的音乐类型。你想告诉朋友这些数据背后隐藏的故事，但单纯的数字和图表可能太枯燥了。于是，你开始用不同的方式讲故事：用有趣的地图展示天气变化，用声音播放喜欢的音乐，用互动的图表让朋友自己探索。这个过程就像在用多种工具把数据变成一个有趣、容易理解的故事。系统中的每一步都可以追溯，比如你用的地图来源，音乐的出处，或者数据的原始文件。这样，大家不仅能听懂故事，还能验证每个细节的真实性，就像老师检查你的实验报告一样。这个方法让数据变得更生动、更可信，也更容易让人记住。

原文摘要

Data tells stories that shape society; the data journalist's job is to turn raw information into stories non-experts can trust. A high-quality news feature takes a newsroom team weeks: hunting for context, running statistics, choosing an angle, and designing visuals. Recent agents handle individual steps well: data-science agents close the analysis loop, while design agents synthesize beautiful websites. But can an agent serve as a data journalist end to end? We introduce Data Journalist Agent (Data2Story), a multi-agent framework that orchestrates specialized roles into a single virtual newsroom. Data2Story contributes two innovations. (i) Claims are evidence-grounded: an Inspector links every number, angle, and asset back to data, code, or an external reference. (ii) Articles are multimodally generative: rather than defaulting to plain text and static charts, Data2Story reasons about what readers will want to see, then deploys multimodal tools, such as interactive maps for geography and audio for music. We evaluate Data2Story on 18 articles, each paired with the originally published expert piece, along four axes: (a) human-agent angle coverage; (b) rubric evaluation with 53 participants across five dimensions; (c) computer-use agents as judges, a cost-saving proxy for how readers navigate interactive articles; and (d) verifiability, where a coding verifier re-executes statements against the data and checks claims against references. Data2Story produces competitive, evidence-traceable multimedia stories, with particular strength in transparency and auditability. Human articles retain an edge in editorial angle, creative design, and presentation. We position Data2Story as a collaborator for journalists, enabling more evidence-based, transparent, and verifiable reporting. Code and demos are available at https://data2story.github.io.

cs.CV cs.CL cs.CY cs.HC

参考文献 (20)

Developing Story: Case Studies of Generative AI's Use in Journalism

Natalie Grace Brigham, Chong Gao, Tadayoshi Kohno 等

2024 14 引用查看解读 →

Computational journalism

Sarah Cohen, J. Hamilton, F. Turner

2011 231 引用

Narrative Visualization: Telling Stories with Data

E. Segel, Jeffrey Heer

2010 1333 引用

MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering

Jun Shern Chan, Neil Chowdhury, Oliver Jaffe 等

2024 253 引用查看解读 →

MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization

Zhiyu Yang, Zihan Zhou, Shuo Wang 等

2024 111 引用查看解读 →

The Data Journalism Handbook: Towards a Critical Data Practice

Roy Krøvel

2021 39 引用

CoDA: Agentic Systems for Collaborative Data Visualization

Zichen Chen, Jiefeng Chen, Sercan Ö. Arik 等

2025 10 引用查看解读 →

Judging LLM-as-a-judge with MT-Bench and Chatbot Arena

Lianmin Zheng, Wei-Lin Chiang, Ying Sheng 等

2023 9052 引用查看解读 →

From Data to Story: Towards Automatic Animated Data Video Creation with LLM-Based Multi-Agent Systems

Leixian Shen, Haotian Li, Yun Wang 等

2024 27 引用查看解读 →

MMSearch: Benchmarking the Potential of Large Models as Multi-modal Search Engines

Dongzhi Jiang, Renrui Zhang, Ziyu Guo 等

2024 85 引用查看解读 →

Logic and Conversation

Siobhan Chapman

2005 11897 引用

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

Patrick Lewis, Ethan Perez, Aleksandara Piktus 等

2020 14646 引用查看解读 →

The garden of forking paths : Why multiple comparisons can be a problem , even when there is no “ fishing expedition ” or “ p-hacking ” and the research hypothesis was posited ahead of time ∗

Andrew Gelman, Eric Loken

2019 612 引用

MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation

Qian Huang, Jian Vora, Percy Liang 等

2023 237 引用查看解读 →

DataNarrative: Automated Data-Driven Storytelling with Visualizations and Texts

Mohammed Saidul Islam, Enamul Hoque, Shafiq R. Joty 等

2024 39 引用查看解读 →

The Visual Display of Quantitative Information

E. Tufte

1985 5159 引用

PublicAgent: Multi-Agent Design Principles From an LLM-Based Open Data Analysis Framework

Sina Montazeri, Yunhe Feng, Kewei Sha

2025 3 引用查看解读 →

When Journalism Meets AI: Risk or Opportunity?

Sophia Cheng

2024 15 引用

Design2Code: Benchmarking Multimodal Code Generation for Automated Front-End Engineering

Chenglei Si, Yanzhe Zhang, Ryan Li 等

2024 107 引用查看解读 →

DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research

Rulin Shao, Akari Asai, Shannon Zejiang Shen 等

2025 58 引用查看解读 →

Data Journalist Agent: Transforming Data into Verifiable Multimodal Stories

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

原文摘要

参考文献 (20)

相关论文

JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning

SSD: Spatially Speculative Decoding Accelerates Autoregressive Image Generation

CalTennis: Large Multi-View Tennis Video Dataset and Benchmark of Monocular-to-3D Pose Estimation

Unified Multimodal Autoregressive Modeling with Shared Context-Visual Tokenizer is Key to Unification

EventDrive: Event Cameras for Vision-Language Driving Intelligence

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样