EVENT5Ws: A Large Dataset for Open-Domain Event Extraction from Documents

TL;DR

EVENT5Ws：一个用于文档开放域事件抽取的大型数据集，提供手动注释和统计验证。

cs.CL 🔴 高级 2026-04-24 30 次浏览

Praval Sharma Ashok Samal Leen-Kiat Soh Deepti Joshi

事件抽取数据集开放域自然语言处理机器学习

核心发现

方法论

本研究提出了EVENT5Ws数据集，这是一个开放域事件抽取的数据集，采用手动注释并通过编码员间信度（ICR）进行验证。数据集的创建遵循系统的注释流程，涵盖了何地、何时、何事、何人、为何五个关键方面。通过对现有预训练大型语言模型的评估，研究为未来的研究设立了基准，并展示了这些模型在不同地理背景数据集上的有效泛化能力。

关键结果

结果1：在EVENT5Ws数据集上评估的预训练大型语言模型在何地、何时、何人方面表现较好，但在何事和为何方面表现较弱，表明开放域事件抽取的挑战性。
结果2：模型在不同地理和文本背景的数据集上表现出良好的泛化能力，证明了EVENT5Ws数据集在开发通用算法方面的潜力。
结果3：通过实验，研究展示了在不同的地理和文本背景下，模型的泛化能力，强调了数据集在开发稳健的开放域事件抽取算法方面的潜力。

研究意义

EVENT5Ws数据集的开发填补了开放域事件抽取领域中缺乏大规模手动验证数据集的空白。该数据集不仅为研究人员提供了一个新的基准，还展示了其在不同地理背景下的泛化能力，推动了自然语言理解和下游应用的发展。通过系统的注释流程和对现有模型的评估，该研究为未来的大规模数据集开发提供了宝贵的经验和建议。

技术贡献

本研究的技术贡献包括：1) 开发了一个大规模的开放域事件抽取数据集EVENT5Ws，2) 提出了系统的注释流程，提供了注释复杂性的实证见解，3) 评估了现有的预训练大型语言模型，并为未来的开放域事件抽取研究设立了基准。

新颖性

EVENT5Ws是首个大规模手动注释并通过ICR验证的开放域事件抽取数据集。与现有的基于预定义事件模式的数据集不同，EVENT5Ws采用5Ws框架，支持提取不受限制的事件类型，为自然语言理解提供了新的可能性。

局限性

局限1：尽管EVENT5Ws数据集在不同地理背景下表现出良好的泛化能力，但在处理何事和为何方面仍存在挑战，可能需要更复杂的算法来提高性能。
局限2：数据集的创建依赖于手动注释，尽管通过ICR验证了质量，但仍可能存在主观偏差。
局限3：由于数据集主要基于新闻报道，可能在处理其他类型文档时表现不佳。

未来方向

未来的研究方向包括：1) 开发更复杂的算法以提高在何事和为何方面的性能，2) 扩展数据集以涵盖更多类型的文档和事件，3) 探索自动化注释方法以减少手动注释的主观偏差。

AI 总览摘要

事件抽取是从文本中识别事件核心要素的过程，对于提高情境感知、应急管理和决策制定至关重要。然而，现有的数据集在事件类型覆盖和开放域设置下的手动验证方面存在局限性。

为了解决这些问题，研究人员开发了EVENT5Ws，一个大规模、手动注释并通过编码员间信度（ICR）验证的开放域事件抽取数据集。该数据集采用5Ws框架，涵盖了何地、何时、何事、何人、为何五个关键方面，提供了一个系统的注释流程。

通过对现有预训练大型语言模型的评估，研究为未来的研究设立了基准。实验结果表明，模型在何地、何时、何人方面表现较好，但在何事和为何方面表现较弱，强调了开放域事件抽取的挑战性。

此外，研究展示了模型在不同地理和文本背景下的泛化能力，证明了EVENT5Ws数据集在开发通用算法方面的潜力。通过这些实验，研究为未来的大规模数据集开发提供了宝贵的经验和建议。

尽管EVENT5Ws数据集在不同地理背景下表现出良好的泛化能力，但在处理何事和为何方面仍存在挑战，可能需要更复杂的算法来提高性能。未来的研究方向包括开发更复杂的算法、扩展数据集以涵盖更多类型的文档和事件，以及探索自动化注释方法以减少手动注释的主观偏差。

深度分析

研究背景

事件抽取是自然语言处理领域的重要任务，旨在从文本中识别事件的核心要素。随着信息量的增加，自动化事件抽取变得越来越重要，尤其是在应急管理和决策制定中。现有的数据集多为封闭域，基于预定义的事件模式，限制了算法在未见事件类型上的泛化能力。此外，开放域设置下缺乏大规模手动验证的数据集，限制了深度学习方法的发展。为此，研究人员开发了EVENT5Ws，一个大规模、手动注释并通过ICR验证的开放域事件抽取数据集，旨在支持不受限制的事件类型提取。

核心问题

现有的事件抽取数据集主要基于封闭域，使用预定义的事件模式，限制了算法在未见事件类型上的泛化能力。此外，开放域设置下缺乏大规模手动验证的数据集，限制了深度学习方法的发展。由于真实世界的事件多样且不断演变，难以枚举所有可能的事件类型，因此需要开发支持不受限制事件类型提取的开放域事件抽取数据集。

核心创新

EVENT5Ws数据集的开发具有以下创新点：1) 采用5Ws框架，涵盖何地、何时、何事、何人、为何五个关键方面，支持不受限制的事件类型提取；2) 通过系统的注释流程和ICR验证，确保数据集的质量和可靠性；3) 提供了一个新的基准，评估现有的预训练大型语言模型在开放域事件抽取任务上的表现。

方法详解

�� 选择和招募编码员：通过大学课程、邮件列表和学生社团招募熟悉地理和文化背景的学生编码员。

�� 注释平台：使用Dataturks，一个开源的网络应用程序，进行文本注释。

�� 注释指南：创建明确的注释指南，并通过示例帮助编码员理解任务。

�� 解决政策：制定处理编码员之间分歧的政策，确保最终数据集的准确性和可靠性。

�� 数据集构建过程：包括培训、数据集准备、注释和分歧解决四个步骤。

实验设计

实验设计包括使用EVENT5Ws数据集对多种预训练大型语言模型进行评估，模型包括Gemma 3、Llama 3.1、Qwen 3、Mistral v0.3和T5 Large。实验在零样本和五样本提示下进行，使用精确匹配和ROUGE-L等指标评估模型在何地、何时、何事、何人、为何五个方面的表现。实验还包括在不同地理和文本背景下的泛化能力测试。

结果分析

实验结果表明，预训练大型语言模型在何地、何时、何人方面表现较好，但在何事和为何方面表现较弱，强调了开放域事件抽取的挑战性。此外，模型在不同地理和文本背景下表现出良好的泛化能力，证明了EVENT5Ws数据集在开发通用算法方面的潜力。通过这些实验，研究为未来的大规模数据集开发提供了宝贵的经验和建议。

应用场景

EVENT5Ws数据集的应用场景包括：1) 支持开发更复杂的算法以提高开放域事件抽取的性能；2) 作为评估现有预训练大型语言模型的基准；3) 在不同地理和文本背景下测试模型的泛化能力，推动自然语言理解和下游应用的发展。

局限与展望

尽管EVENT5Ws数据集在不同地理背景下表现出良好的泛化能力，但在处理何事和为何方面仍存在挑战，可能需要更复杂的算法来提高性能。此外，数据集的创建依赖于手动注释，尽管通过ICR验证了质量，但仍可能存在主观偏差。由于数据集主要基于新闻报道，可能在处理其他类型文档时表现不佳。未来的研究方向包括开发更复杂的算法、扩展数据集以涵盖更多类型的文档和事件，以及探索自动化注释方法以减少手动注释的主观偏差。

通俗解读非专业人士也能看懂

想象一下你在厨房里做饭。事件抽取就像是从一堆食材中挑选出你需要的东西来做一道菜。你需要知道在哪里找到这些食材（何地），什么时候需要它们（何时），你要做什么菜（何事），谁来帮你（何人），以及为什么要做这道菜（为何）。在这项研究中，研究人员开发了一个叫做EVENT5Ws的数据集，就像是一个详细的食谱，帮助你更好地挑选和使用这些食材。这个数据集通过手动注释和验证，确保你挑选的食材是正确的，并且可以在不同的厨房（地理背景）中使用。尽管如此，有些食材可能很难找到，比如一些特殊的香料（何事和为何），这需要更复杂的技巧来处理。未来，我们希望能开发出更好的工具，帮助你在厨房中更轻松地找到和使用这些食材。

简单解释像给14岁少年讲一样

嘿，小伙伴！你有没有想过新闻是怎么被写出来的？其实，每篇新闻都有一些关键问题：在哪里发生的？什么时候发生的？发生了什么？谁参与了？为什么会发生？这些问题就像是一个大侦探故事！研究人员开发了一个叫做EVENT5Ws的数据集，帮助电脑像侦探一样从新闻中找出这些答案。这个数据集就像是一个超级详细的侦探指南，帮助电脑更快更准地找到线索。不过，有时候电脑也会遇到难题，比如找出事情的原因，这就像是解开一个复杂的谜题。未来，我们希望能让电脑变得更聪明，帮助它们更好地解开这些谜题！

术语表

事件抽取 (Event Extraction)

从文本中识别和提取事件的核心要素，如时间、地点、参与者等。

在论文中用于描述从文档中提取事件信息的过程。

开放域 (Open-Domain)

不受限于特定领域或事件类型的数据集或算法。

用于描述EVENT5Ws数据集支持提取不受限制的事件类型。

5Ws框架 (5Ws Framework)

用于描述事件的五个关键方面：何地、何时、何事、何人、为何。

在论文中用于指导数据集的注释过程。

编码员间信度 (Inter-Coder Reliability, ICR)

用于评估不同编码员之间注释一致性的指标。

用于验证EVENT5Ws数据集的注释质量。

预训练大型语言模型 (Pre-trained Large Language Models)

经过大规模数据训练的语言模型，能够执行多种自然语言处理任务。

用于评估在EVENT5Ws数据集上的表现。

精确匹配 (Exact Match, EM)

一种评估指标，判断预测结果是否与标准答案完全一致。

用于评估模型在EVENT5Ws数据集上的表现。

ROUGE-L

一种基于最长公共子序列的文本评估指标，用于评估生成文本的质量。

用于评估模型在何事和为何方面的表现。

数据集 (Dataset)

用于训练和评估算法的数据集合。

EVENT5Ws是一个用于开放域事件抽取的数据集。

手动注释 (Manual Annotation)

由人类编码员对数据进行标记和注释的过程。

用于创建EVENT5Ws数据集。

泛化能力 (Generalization Ability)

模型在未见数据或不同背景下的表现能力。

用于描述模型在不同地理和文本背景下的表现。

开放问题这项研究留下的未解疑问

1 开放域事件抽取的挑战在于如何提高模型在何事和为何方面的性能。现有模型在这些方面表现较弱，可能需要更复杂的算法和更丰富的数据集来提高性能。
2 尽管EVENT5Ws数据集在不同地理背景下表现出良好的泛化能力，但在处理其他类型文档时的表现仍需进一步验证。这需要扩展数据集以涵盖更多类型的文档和事件。
3 手动注释虽然通过ICR验证了质量，但仍可能存在主观偏差。未来的研究可以探索自动化注释方法，以减少手动注释的主观偏差。
4 现有的预训练大型语言模型在开放域事件抽取任务上的表现有限，可能需要开发专门的算法来提高性能。这需要对模型进行更深入的研究和优化。
5 在处理复杂事件时，模型可能难以识别隐含的因果关系。这需要开发更复杂的算法，以提高模型在识别和理解复杂事件方面的能力。

应用场景

近期应用

应急管理

EVENT5Ws数据集可以用于开发更复杂的算法，提高在应急管理中的事件识别和信息提取能力。

新闻分析

通过使用EVENT5Ws数据集，新闻机构可以更准确地分析和报道事件，提高新闻报道的质量和效率。

自然语言理解

EVENT5Ws数据集为自然语言理解提供了新的基准，推动了相关算法的发展和应用。

远期愿景

智能决策支持系统

通过提高事件抽取的准确性和效率，EVENT5Ws数据集有望推动智能决策支持系统的发展，为各行业提供更精准的信息服务。

跨文化信息交流

EVENT5Ws数据集的泛化能力可以促进跨文化的信息交流，提高不同文化背景下的信息理解和共享。

原文摘要

Event extraction identifies the central aspects of events from text. It supports event understanding and analysis, which is crucial for tasks such as informed decision-making in emergencies. Therefore, it is necessary to develop automated event extraction approaches. However, existing datasets for algorithm development have limitations, including limited coverage of event types in closed-domain settings and a lack of large, manually verified dataset in open-domain settings. To address these limitations, we create EVENT5Ws , a large, manually annotated, and statistically verified open-domain event extraction dataset. We design a systematic annotation pipeline to create the dataset and provide empirical insights into annotation complexity. Using EVENT5Ws, we evaluate state-of-the-art pre-trained large language models and establish a benchmark for future research. We further show that models trained on EVENT5Ws generalize effectively to datasets from different geographical contexts, which demonstrates its potential for developing generalizable algorithms. Finally, we summarize the lessons learned during the dataset development and provide recommendations to support future large-scale dataset development.

cs.CL

参考文献 (20)

DocEE: A Large-Scale and Fine-grained Benchmark for Document-level Event Extraction

Meihan Tong, Bin Xu, Shuai Wang 等

2022 58 引用 ⭐ 高影响力

Use of Ranks in One-Criterion Variance Analysis

W. Kruskal, W. A. Wallis

1952 12480 引用 ⭐ 高影响力

ROUGE: A Package for Automatic Evaluation of Summaries

Chin-Yew Lin

2004 20065 引用 ⭐ 高影响力

Open-Domain Event Detection using Distant Supervision

J. Araki, T. Mitamura

2018 43 引用 ⭐ 高影响力

Giveme5W1H: A Universal System for Extracting Main Events from News Articles

Felix Hamborg, Corinna Breitinger, Bela Gipp

2019 52 引用 ⭐ 高影响力查看解读 →

Experiments with crowdsourced re-annotation of a POS tagging data set

Dirk Hovy, Barbara Plank, Anders Søgaard

2014 49 引用

Multi-Sentence Argument Linking

Seth Ebner, Patrick Xia, Ryan Culkin 等

2019 203 引用查看解读 →

Utility data annotation with Amazon Mechanical Turk

A. Sorokin, D. Forsyth

2008 713 引用

Open Domain Event Extraction Using Neural Latent Variable Models

Xiao Liu, Heyan Huang, Yue Zhang

2019 64 引用查看解读 →

Augmenting Open-Domain Event Detection with Synthetic Data from GPT-2

Amir Pouran Ben Veyseh, Minh Nguyen, Bonan Min 等

2021 19 引用

“Making the News”: Identifying Noteworthy Events in News Articles

Shyam Upadhyay, Christos Christodoulopoulos, Dan Roth

2016 13 引用

Open domain event extraction from twitter

Alan Ritter, Mausam, Oren Etzioni 等

2012 659 引用

The Reliability of Multi-Valued Coding of Data

K. Krippendorff, R. Craggs

2016 38 引用

Topic Detection and Tracking Pilot Study Final Report

James Allan, J. Carbonell, G. Doddington 等

1998 1204 引用

Citizen Science for Mining the Biomedical Literature

Ginger Tsueng, Steven M. Nanis, Jennifer T. Fouquier 等

2016 26 引用

MEANTIME, the NewsReader Multilingual Event and Time Corpus

Anne-Lyse Minard, Manuela Speranza, Ruben Urizar 等

2016 147 引用

Lessons Learned from a Citizen Science Project for Natural Language Processing

Jan-Christoph Klie, Ji-Ung Lee, Kevin Stowe 等

2023 5 引用查看解读 →

Spatiotemporal event detection: a review

Manzhu Yu, M. Bambacus, G. Cervone 等

2020 93 引用

Literary Event Detection

Matthew Sims, Jongho Park, David Bamman

2019 98 引用

Overview of Linguistic Resources for the TAC KBP 2017 Evaluations: Methodologies and Results

Jeremy Getman, Joe Ellis, Zhiyi Song 等

2017 30 引用

EVENT5Ws: A Large Dataset for Open-Domain Event Extraction from Documents

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

事件抽取 (Event Extraction)

开放域 (Open-Domain)

5Ws框架 (5Ws Framework)

编码员间信度 (Inter-Coder Reliability, ICR)

预训练大型语言模型 (Pre-trained Large Language Models)

精确匹配 (Exact Match, EM)

ROUGE-L

数据集 (Dataset)

手动注释 (Manual Annotation)

泛化能力 (Generalization Ability)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

应急管理

新闻分析

自然语言理解

远期愿景

智能决策支持系统

跨文化信息交流

原文摘要

参考文献 (20)

相关论文

Sentiment and Emotion Classification of Indonesian E-Commerce Reviews via Multi-Task BiLSTM and AutoML Benchmarking

SeaEvo: Advancing Algorithm Discovery with Strategy Space Evolution

Improving Robustness of Tabular Retrieval via Representational Stability

Representational Harms in LLM-Generated Narratives Against Global Majority Nationalities

CRAFT: Clustered Regression for Adaptive Filtering of Training data

BERAG: Bayesian Ensemble Retrieval-Augmented Generation for Knowledge-based Visual Question Answering

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问