Understanding Data Temporality Impact on Large Language Models Pre-training

TL;DR

基于KairosQA数据集,6B参数模型顺序预训练提升时间敏感知识准确率,较随机打乱提升F1达15%。

cs.CL 🔴 高级 2026-05-22 139 次浏览
Pilchen Hippolyte Fabre Romain Signe Talla Franck Perez Patrick Grave Edouard
大规模语言模型 时间敏感知识 预训练策略 数据顺序 持续学习

核心发现

方法论

本文设计了一个对比实验框架,分别对6B参数Transformer模型进行基于时间顺序和随机打乱的Common Crawl快照数据预训练。数据覆盖2018至2025年,采用严格的多阶段过滤和去重保证数据质量。引入KairosQA数据集,包含7167个时间标注的问答对,评估模型对事实与时间的正确关联能力。评估采用cloze和生成两种任务形式,结合OLMES和TAQA等基准,全面分析模型的时间敏感知识获取和保持能力。

关键结果

  • 顺序预训练模型在KairosQA上的F1分数相较随机打乱模型提升约15%,尤其在2023-2024年最新事实的准确率显著更高,表现出明显的时间新鲜度优势。
  • 两种训练方式在OLMES通用语言理解任务上表现相当,说明时间顺序训练不会损害模型的语言能力和常识知识。
  • 顺序训练模型表现出明显的时间偏好,准确率峰值对应训练截止年份,体现了模型对最新数据的优先学习,而随机打乱模型则在较旧年份表现更优,可能因事实重复率更高。

研究意义

本研究首次系统揭示了预训练数据时间顺序对大规模语言模型时间敏感知识掌握的深远影响,填补了当前LLM知识冻结和时间对齐不足的空白。通过公开KairosQA数据集、代码和模型检查点,为持续学习和知识更新研究提供了坚实基础,推动了模型在动态现实世界中的应用可靠性和时效性。

技术贡献

提出了基于时间顺序的预训练范式,突破传统随机打乱数据训练限制,实现模型对时间敏感事实的动态捕获。设计了KairosQA时间敏感问答基准,结合cloze和生成评测协议,精细量化模型时间对齐能力。采用分阶段冷却学习率策略确保训练稳定性,系统分析了训练过程中知识的时间演变和遗忘机制。

新颖性

首次系统比较了时间顺序与随机打乱预训练对LLM时间敏感知识的影响,创新性地构建了跨年份时间标注问答数据集KairosQA,精确评估模型对事实时间关联的理解,突破了以往知识冻结的局限,提出了时间顺序训练作为促进知识新鲜度的有效策略。

局限性

  • 顺序训练模型在提升最新知识的同时,存在对较早年份知识的遗忘现象,表现为旧知识准确率下降,影响模型的长期知识完整性。
  • 实验规模局限于6B参数模型,尚未验证该方法在更大规模模型上的普适性和效率,未来需扩展至更大模型。
  • KairosQA数据集主要覆盖体育、奖项等领域,时间敏感事实类型有限,未来需扩展多样化领域以增强评估广度。

未来方向

未来工作将聚焦于结合顺序预训练与持续学习技术,缓解旧知识遗忘问题,提升模型对动态知识的适应能力。计划扩展KairosQA数据集覆盖更多领域和语言,增强评测的多样性和代表性。此外,将探索更大规模模型和更长时间跨度数据的顺序训练策略,推动LLM在现实应用中实现持续更新和时间对齐。

AI 总览摘要

大型语言模型(LLM)通常采用随机打乱的海量文本数据进行预训练,导致模型知识在训练完成后被冻结,难以准确反映事实的时间演变。本文针对这一问题,系统研究了预训练数据的时间顺序对模型时间敏感知识获取的影响。研究团队设计了一个对比实验框架,训练了6B参数的Transformer模型,分别使用时间顺序和随机打乱的Common Crawl快照数据,覆盖2018年至2025年。为评估模型对时间敏感事实的理解,作者构建了KairosQA数据集,包含超过7000个带时间标注的问答对,结合cloze和生成两种评测方式,全面分析模型的时间对齐能力。

实验结果显示,顺序预训练模型在保持通用语言理解能力的同时,显著提升了对最新事实的掌握,尤其在2023-2024年数据上F1分数较随机打乱模型提升约15%。顺序训练使模型表现出明显的时间偏好,准确率峰值与训练截止年份一致,体现了对新知识的优先学习,而随机打乱模型则更依赖于历史数据的重复,导致对近期知识的掌握不足。

这一发现挑战了传统预训练范式,表明数据时间顺序是影响模型知识时效性的关键因素。通过公开KairosQA数据集、代码和模型检查点,研究为持续学习和动态知识更新提供了重要工具和基准。研究还揭示了顺序训练存在的旧知识遗忘问题,提示未来需结合持续学习策略缓解这一缺陷。

该工作不仅为理解LLM知识时间动态提供了理论和实证支持,也为工业界构建更具时效性和现实适应性的语言模型指明了方向。未来,扩展数据集领域和模型规模,结合更先进的训练策略,将进一步推动LLM在快速变化的现实世界中保持知识新鲜度和准确性。

总之,本文通过系统的实验设计和创新的数据集构建,首次揭示了预训练数据时间顺序对LLM时间敏感知识的决定性影响,开启了面向动态知识持续学习的新篇章。该研究为学术界和工业界提供了宝贵的参考,促进了语言模型从静态知识库向动态知识体的转变。

深度分析

研究背景

大型语言模型(LLM)近年来在自然语言处理领域取得了突破性进展,广泛应用于文本生成、问答和推理等任务。主流LLM如GPT系列、LLaMA等,通常采用大规模互联网文本数据进行预训练,形成强大的语言理解和知识表达能力。然而,这些模型普遍存在知识冻结问题,即模型知识停留在训练数据截止时间,难以反映最新事实和事件。现有研究多关注模型架构和微调技术,较少探讨预训练数据的时间属性对模型知识时效性的影响。尽管部分工作尝试通过持续学习或后续微调更新知识,但预训练阶段的数据时间顺序对模型时间敏感知识获取的作用尚未系统研究。本文基于这一背景,提出了时间顺序预训练范式,旨在提升模型对时间动态事实的理解和记忆能力。

核心问题

当前大规模语言模型的预训练通常采用随机打乱的海量文本数据,忽视了数据的时间顺序。这导致模型知识冻结在训练截止时间,无法准确回答训练后发生的事件,且对临近训练截止时间的事实掌握不佳。具体瓶颈包括:1)模型难以区分事实发生的具体时间,缺乏时间对齐能力;2)随机打乱训练导致模型偏向于重复出现的历史事实,忽视最新知识;3)缺乏有效评估时间敏感知识的基准和协议。解决这些问题对于提升模型在动态现实环境中的实用性和可靠性至关重要。

核心创新

本文的核心创新包括:1)提出基于时间顺序的预训练策略,将Common Crawl数据按年份严格排序输入模型,模拟知识随时间演进的学习过程,区别于传统随机打乱训练;2)构建KairosQA数据集,包含7167个时间标注的问答对,覆盖体育、奖项等多个领域,专门用于评估模型对时间敏感事实的理解;3)设计结合cloze和生成两种任务形式的评测协议,精细量化模型的时间对齐能力;4)采用分阶段冷却学习率策略,确保顺序训练过程的稳定收敛;5)通过多时间点检查点分析模型知识的时间演变和遗忘机制,系统揭示时间顺序训练对知识新鲜度的促进作用。

方法详解

  • �� 数据准备:收集2018至2025年间的Common Crawl快照,应用多阶段过滤(字符长度、语言识别、去重、质量评分、重复率控制)确保高质量文本。

  • �� 模型架构:采用6B参数Transformer解码器,32层,32头注意力,隐藏维度4096,结合Grouped-Query Attention、RoPE位置编码和SwiGLU激活。

  • �� 训练策略:
  • 基线模型使用随机打乱的2020-2024年数据,模拟传统预训练。
  • 顺序模型严格按年份顺序训练,覆盖2018-2025年,每年约315B tokens,总计2.5T tokens。
  • 采用AdamW优化器,Warmup-Stable-Decay学习率调度,峰值10^-3。
  • 分阶段冷却策略:训练结束后分支30k步余弦衰减至10^-4,确保稳定收敛。

  • �� 评测设计:
  • 构建KairosQA,基于Wikidata提取时间敏感三元组,筛选高人气实体,生成多选和生成式问题。
  • 采用cloze和生成两种任务,结合OLMES和TAQA基准,全面评估语言理解和时间敏感知识。

  • �� 评估流程:
  • 对比顺序与随机模型在不同训练阶段的表现。
  • 重点分析时间对齐能力、知识新鲜度及遗忘现象。

实验设计

实验采用两个主要数据集:KairosQA(7167个时间标注问答对,覆盖2014至2025年)和OLMES(通用语言理解基准)。训练6B参数Transformer模型,分别在顺序和随机打乱的Common Crawl数据上训练,训练总量均为2.5T tokens。顺序训练生成8个年度检查点,随机训练生成对应token数检查点。评测包括cloze任务准确率、多选任务准确率及生成任务的F1分数。对比了多款开源模型(如LLaMA 3.1-8B、Gemma3、Olmo3、Qwen3),分析时间敏感知识表现。实验还考察了训练过程中模型的知识遗忘和时间偏好现象,验证顺序训练对最新知识的优先学习效果。

结果分析

顺序预训练模型在KairosQA上的cloze任务准确率和生成任务F1分数均显著优于随机打乱模型,尤其在2023-2024年最新数据上F1提升约15%。两种训练方式在OLMES通用语言理解任务上表现相当,验证顺序训练不损害语言能力。顺序模型准确率峰值与训练截止年份一致,体现对最新知识的优先学习。随机模型表现出对较旧年份知识的依赖,近期知识掌握不足。顺序训练存在旧知识遗忘现象,但通过增加训练token数部分缓解。开源模型普遍呈现时间衰减趋势,顺序模型显著逆转该趋势,表现出更强的时间新鲜度和事实准确性。

应用场景

该研究成果可直接应用于需要实时更新知识的智能问答系统、新闻摘要生成和动态知识库构建,提升模型对最新事实的响应能力。顺序预训练策略为持续学习和在线更新提供了有效路径,有助于工业界构建具备时间敏感性的语言模型。KairosQA数据集为学术界提供了评估模型时间对齐能力的标准工具,促进时间敏感知识研究。未来可结合领域适应和多语言扩展,推动跨领域动态知识管理和应用。

局限与展望

顺序训练模型在提升最新知识的同时,存在对较早知识的遗忘,影响模型长期知识完整性。实验规模局限于6B参数模型,尚未验证更大模型的适用性。KairosQA主要涵盖体育和奖项领域,时间敏感事实类型有限,评估广度有待扩展。评测中部分生成任务存在歧义,影响准确性。训练时间和计算资源需求较高,限制了更大规模实验的开展。

原文摘要

Large language models (LLMs) are typically trained on shuffled corpora, yielding models whose knowledge is frozen at train time and whose temporal grounding remains poorly understood. In this work, we study the impact of pre-training dynamics on the acquisition of time-sensitive factual knowledge, focusing specifically on data ordering. Our main contributions are twofold. First, we introduce a comprehensive benchmark of over 7,000 temporally grounded questions and an evaluation protocol that enables analysis of whether models correctly associate facts with their corresponding time periods. Second, we pretrain 6B-parameter models on temporally ordered Common Crawl snapshots and compare them against standard shuffled pre-training. Our results show that sequentially trained models match shuffled baselines on general language understanding and common knowledge while consistently exhibiting more up-to-date and temporally precise knowledge. Temporally ordered pre-training yields improved factual freshness, while shuffled pre-training peaks on older data, possibly due to increased factual repetition. These findings, along with the release of our code at https://github.com/kyutai-labs/kairos , checkpoints, and datasets at https://huggingface.co/collections/kyutai/kairos provide a foundation for future research on continual learning for LLMs.

cs.CL cs.AI