ESG-Bench: Benchmarking Long-Context ESG Reports for Hallucination Mitigation

TL;DR

ESG-Bench通过任务特定的思维链提示策略，显著减少大语言模型在长篇ESG报告分析中的幻觉现象。

cs.CL 🔴 高级 2026-03-14 1 次浏览

Siqi Sun Ben Peng Wu Mali Jin Peizhen Bai Hanpei Zhang Xingyi Song

AI 阅读器 Arxiv 原文下载 PDF

ESG 幻觉缓解大语言模型思维链合规分析

核心发现

方法论

ESG-Bench通过将ESG报告分析框架化为带有可验证性约束的问答任务，系统性评估大语言模型提取和推理ESG内容的能力。使用思维链（CoT）提示策略和CoT注释的推理路径对多种最先进的大语言模型进行微调，显著减少幻觉现象。

关键结果

在ESG-Bench上，使用CoT策略的模型在减少幻觉方面显著优于标准提示和直接微调，幻觉减少率达到30%以上。
实验表明，CoT策略不仅在ESG领域有效，还能迁移到其他问答基准，如HaluEval和BioASQ，表现出更高的准确性和可靠性。
通过对比不同的微调策略，发现CoT微调能够在长文本上下文中提高模型的推理一致性和事实准确性。

研究意义

ESG-Bench的引入为ESG报告分析提供了一个系统的评估框架，特别是在社会敏感和合规关键的环境中减少幻觉现象。这一研究为大语言模型在处理复杂长文本时的可靠性提供了新的视角，并为未来的合规性分析工具开发奠定了基础。

技术贡献

技术贡献包括首次将ESG报告分析框架化为带有可验证性约束的问答任务，并引入了思维链提示策略以减少幻觉。这一方法为长文本上下文中的推理提供了新的结构化策略，显著提高了模型的事实一致性和推理透明性。

新颖性

ESG-Bench是首个专门针对长文本ESG报告的问答基准，提供了人类验证的幻觉注释和任务。这一创新在于将思维链策略应用于长文本分析中，显著减少了幻觉现象。

局限性

ESG-Bench目前主要集中在英文ESG报告，未涵盖多语言和跨文化的ESG报告分析。
由于ESG报告的复杂性和多样性，模型在处理特定行业或领域的报告时可能仍存在局限性。
当前的思维链策略可能在极端长文本或高度复杂的报告中表现不佳。

未来方向

未来的研究方向包括扩展ESG-Bench以涵盖多语言和跨文化的ESG报告，开发更为通用的幻觉缓解策略，以及探索如何在极端长文本中提高模型的推理能力。

AI 总览摘要

随着企业责任日益纳入环境、社会和治理（ESG）标准，ESG报告在许多地区成为法律要求，并成为记录可持续性实践和评估企业长期和道德表现的关键渠道。然而，ESG披露的长度和复杂性使其难以解释和自动化分析。为了支持可扩展和可信赖的分析，本文引入了ESG-Bench，一个用于理解ESG报告和减少大语言模型（LLMs）幻觉的基准数据集。ESG-Bench包含基于真实世界ESG报告背景的人类注释问答（QA）对，具有细粒度标签，指示模型输出是否有事实支持或是幻觉。将ESG报告分析框架化为带有可验证性约束的QA任务，使得系统性评估LLMs提取和推理ESG内容的能力成为可能，并提供了一个新的用例：在社会敏感、合规关键的环境中减少幻觉。我们设计了任务特定的思维链（CoT）提示策略，并使用CoT注释的推理路径对多种最先进的LLMs进行微调。我们的实验表明，这些基于CoT的方法在减少幻觉方面显著优于标准提示和直接微调，并且这些收益可以迁移到现有的QA基准之外的ESG领域。

ESG报告的准确和可信赖性对于可持续发展、监管问责和道德企业行为日益重要。ESG提供了一个框架，用于评估公司如何管理与可持续性相关的风险，包括环境、社会和治理支柱。曾经主要是自愿的，ESG披露在许多地区已成为法律要求，尤其是通过欧盟的公司可持续性报告指令和可持续金融披露法规。这一转变反映了对公司对社会和环境影响透明度的期望不断增加。ESG报告因此在促进合规和支持利益相关者对长期表现的评估中发挥着关键作用。

公司现在为投资者、监管者和公众发布详尽的ESG报告。然而，这些披露的有用性取决于其可信度和可比性。第三方ESG评级机构如Sustainalytics和MSCI因方法不透明和不一致性而受到广泛批评，研究表明，即使是同一公司的评分，由于指标选择、加权方案和数据来源的差异，往往会有很大不同。这些争议削弱了利益相关者的信任，并突显出ESG评估远未标准化。随着可持续性报告的长度和复杂性不断增加，这种不一致性增加了对可扩展、透明工具的需求，以支持可靠和基于证据的解释。

大语言模型（LLMs）的出现为大规模自动化分析ESG披露提供了新的机会。然而，ESG报告的复杂性和多样性对可靠的LLM部署提出了重大挑战：公司可能会通过环境倡议进行洗绿，误导投资者和利益相关者关于其真实的ESG影响。ESG报告需要深刻的背景理解、行业特定知识和对监管框架的熟悉，这些都是LLMs可能难以应对的障碍，因为它们依赖于一般知识。ESG报告涉及文本、表格和图形的混合。由于这些文档通常跨越数百页，LLMs在高效的文档解析、稳健的记忆召回和长篇报告中的横截面理解方面仍然有限。

本文提出的ESG-Bench通过一个模型-然后-注释者的流程构建数据集，建立了幻觉类型的分类法，评估多种LLMs在ESG-Bench上的表现，并提出了一种任务特定的思维链策略，以减少长文本ESG分析中的幻觉。我们的贡献总结如下：

• ESG-Bench是一个专门为长文本QA和ESG报告中的幻觉缓解而设计的基准数据集。据我们所知，这是第一个支持系统评估和针对性缓解幻觉的结构化资源，在这个具有社会和监管重要性的领域。

• 我们开发了一种基于任务特定思维链提示和思维链注释推理路径的微调方法。该方法显著提高了事实基础性，减少了幻觉输出，证明了结构化推理在特定领域QA任务中的有效性。

深度分析

研究背景

近年来，随着企业责任逐渐纳入环境、社会和治理（ESG）标准，ESG报告已成为许多地区的法律要求，并成为记录可持续性实践和评估企业长期和道德表现的关键渠道。ESG提供了一个框架，用于评估公司如何管理与可持续性相关的风险，包括环境、社会和治理支柱。曾经主要是自愿的，ESG披露在许多地区已成为法律要求，尤其是通过欧盟的公司可持续性报告指令和可持续金融披露法规。这一转变反映了对公司对社会和环境影响透明度的期望不断增加。ESG报告因此在促进合规和支持利益相关者对长期表现的评估中发挥着关键作用。公司现在为投资者、监管者和公众发布详尽的ESG报告。然而，这些披露的有用性取决于其可信度和可比性。第三方ESG评级机构如Sustainalytics和MSCI因方法不透明和不一致性而受到广泛批评，研究表明，即使是同一公司的评分，由于指标选择、加权方案和数据来源的差异，往往会有很大不同。这些争议削弱了利益相关者的信任，并突显出ESG评估远未标准化。随着可持续性报告的长度和复杂性不断增加，这种不一致性增加了对可扩展、透明工具的需求，以支持可靠和基于证据的解释。

核心问题

ESG报告的复杂性和多样性对可靠的LLM部署提出了重大挑战：公司可能会通过环境倡议进行洗绿，误导投资者和利益相关者关于其真实的ESG影响。ESG报告需要深刻的背景理解、行业特定知识和对监管框架的熟悉，这些都是LLMs可能难以应对的障碍，因为它们依赖于一般知识。ESG报告涉及文本、表格和图形的混合。由于这些文档通常跨越数百页，LLMs在高效的文档解析、稳健的记忆召回和长篇报告中的横截面理解方面仍然有限。LLMs在这些需求上表现不佳，原因在于其在文档解析、检索和横截面理解方面的局限性，以及它们严重依赖于可能与ESG报告的事实内容相冲突的参数化知识。这种不一致经常导致幻觉，即答案不基于源文档。我们将幻觉分为两类：（1）模型引入不支持的信息，（2）遗漏幻觉，模型尽管有相关证据却未能回答。

核心创新

ESG-Bench通过将ESG报告分析框架化为带有可验证性约束的问答任务，使得系统性评估LLMs提取和推理ESG内容的能力成为可能，并提供了一个新的用例：在社会敏感、合规关键的环境中减少幻觉。我们设计了任务特定的思维链（CoT）提示策略，并使用CoT注释的推理路径对多种最先进的LLMs进行微调。我们的实验表明，这些基于CoT的方法在减少幻觉方面显著优于标准提示和直接微调，并且这些收益可以迁移到现有的QA基准之外的ESG领域。

方法详解

�� ESG-Bench数据集构建：通过模型-然后-注释者的流程构建数据集，建立幻觉类型的分类法。

�� 任务特定思维链策略：设计任务特定的思维链提示策略，并使用CoT注释的推理路径对多种最先进的LLMs进行微调。

�� 系统性评估：在ESG-Bench上评估多种LLMs的表现，重点关注幻觉缓解。

�� 实验验证：通过对比不同的微调策略，验证CoT策略在减少幻觉方面的有效性。

实验设计

实验设计包括使用ESG-Bench数据集对多种大语言模型进行评估，重点关注幻觉缓解。我们选择了多个最先进的LLMs，包括Llama-3.2-3B Instruct、Gemma-2-2B-it和Mistral-7B-Instruct-v0.3。这些模型在ESG-Bench、HaluEval和BioASQ等基准上进行测试，评估其生成响应时识别幻觉的能力。实验采用的评估指标包括WA（有答案）和WoA（无答案）的准确性，以公平评估模型在生成准确答案和适当放弃时的能力。

结果分析

实验结果表明，使用CoT策略的模型在减少幻觉方面显著优于标准提示和直接微调，幻觉减少率达到30%以上。在ESG-Bench上，使用CoT策略的模型在减少幻觉方面显著优于标准提示和直接微调，幻觉减少率达到30%以上。实验表明，CoT策略不仅在ESG领域有效，还能迁移到其他问答基准，如HaluEval和BioASQ，表现出更高的准确性和可靠性。通过对比不同的微调策略，发现CoT微调能够在长文本上下文中提高模型的推理一致性和事实准确性。

应用场景

ESG-Bench的应用场景包括企业ESG审计和合规验证，以及为长篇ESG文档的摘要模型训练提供宝贵资源。注释者修正的响应能够微调ESG特定的QA模型以提高事实基础性，而幻觉标签有助于开发缓解策略。数据集还作为评估回答准确性、检索稳健性和格式特定性能的基准工具。

局限与展望

ESG-Bench目前主要集中在英文ESG报告，未涵盖多语言和跨文化的ESG报告分析。由于ESG报告的复杂性和多样性，模型在处理特定行业或领域的报告时可能仍存在局限性。当前的思维链策略可能在极端长文本或高度复杂的报告中表现不佳。未来的研究方向包括扩展ESG-Bench以涵盖多语言和跨文化的ESG报告，开发更为通用的幻觉缓解策略，以及探索如何在极端长文本中提高模型的推理能力。

通俗解读非专业人士也能看懂

想象一下你在厨房里做饭。你有一份食谱（ESG报告），但它非常长，而且有很多复杂的步骤（复杂的ESG报告）。你需要一个助手（大语言模型）来帮助你理解和执行这些步骤。然而，有时候助手可能会误解食谱中的某些部分，导致做出错误的菜（幻觉）。为了避免这种情况，我们需要一个新的方法（ESG-Bench），它就像一个详细的指导手册，帮助助手更好地理解食谱，并确保每一步都准确无误。这个方法使用了一种叫做思维链的策略，就像是在每个步骤之间加上注释，确保助手在做每一步之前都能理解其背后的逻辑。这就像是给助手提供了一个清晰的思路，让它在复杂的食谱中不迷路，做出美味的菜肴。通过这种方式，我们可以确保助手在处理复杂食谱时的准确性和可靠性。

简单解释像给14岁少年讲一样

嘿，小伙伴们！想象一下你在学校里做一个超长的项目报告（就像ESG报告），但它实在太长了，你都不知道从哪里开始。于是，你找来了一个超级聪明的机器人助手（大语言模型），希望它能帮你搞定这个报告。但有时候，这个机器人会犯错误，比如说它会自己编一些不存在的东西（幻觉）。为了让机器人更靠谱，我们给它设计了一套新的方法（ESG-Bench），就像是给它装上了一个超级指南针，让它在处理这些复杂报告时不迷路。这个指南针叫做思维链策略，它会在每一步都给机器人一些提示，确保它不会犯错。这样一来，机器人就能帮你更好地完成报告，而不是给你添乱。是不是很酷？

术语表

ESG报告

环境、社会和治理（ESG）报告是公司用来披露其在可持续性和社会责任方面表现的文件。

在本文中，ESG报告是分析和减少幻觉的核心对象。

幻觉

在自然语言处理中，幻觉指的是模型生成的与源文档不一致或不支持的信息。

本文中，幻觉是需要缓解的主要问题。

大语言模型（LLM）

大语言模型是一种使用大量数据训练的深度学习模型，能够生成和理解自然语言。

本文中，LLM用于分析和理解ESG报告。

思维链（CoT）

思维链是一种提示策略，通过引导模型进行逐步推理来提高其推理能力。

本文中，CoT用于减少大语言模型在长文本中的幻觉。

问答（QA）任务

问答任务是一种自然语言处理任务，旨在从文本中提取信息以回答特定问题。

本文中，ESG报告分析被框架化为QA任务。

微调

微调是指在预训练模型的基础上，使用特定任务的数据进行进一步训练以提高模型在该任务上的表现。

本文中，微调用于提高模型在ESG-Bench上的表现。

HaluEval

HaluEval是一个用于评估模型在不同任务和领域中幻觉的基准数据集。

本文中，HaluEval用于验证CoT策略的迁移性。

BioASQ

BioASQ是一个专注于生命科学领域的科学文献问答基准。

本文中，BioASQ用于验证CoT策略的迁移性。

监督学习

监督学习是一种机器学习方法，通过使用带标签的数据来训练模型，使其能够在新数据上进行预测。

本文中，监督学习用于微调模型以减少幻觉。

数据集

数据集是用于训练和评估机器学习模型的有组织的数据集合。

本文中，ESG-Bench是一个用于评估和减少幻觉的数据集。

开放问题这项研究留下的未解疑问

1 如何在多语言和跨文化的ESG报告中有效减少幻觉？当前的方法主要集中在英文报告上，未来需要开发更通用的策略。
2 在极端长文本或高度复杂的报告中，如何提高模型的推理能力？现有的思维链策略可能在这些情况下表现不佳。
3 如何在不同领域和行业中应用ESG-Bench？由于ESG报告的复杂性和多样性，模型在处理特定行业或领域的报告时可能仍存在局限性。
4 如何进一步提高模型在长文本上下文中的推理一致性和事实准确性？尽管CoT策略已取得显著进展，但仍有改进空间。
5 如何结合其他技术（如多模态学习）来增强ESG报告分析的效果？当前的研究主要集中在文本分析上。

应用场景

近期应用

企业ESG审计

ESG-Bench可以用于企业的ESG审计，帮助识别和减少报告中的幻觉，确保披露的准确性和可信度。

合规验证

通过使用ESG-Bench，监管机构可以更有效地验证企业的合规性，确保其报告符合相关法规和标准。

长文本摘要

ESG-Bench为长篇ESG文档的摘要模型训练提供了宝贵资源，帮助提高模型在处理复杂长文本时的准确性。

远期愿景

多语言ESG分析

未来，ESG-Bench可以扩展到多语言和跨文化的ESG报告分析，帮助全球企业提高报告的透明度和一致性。

智能合规工具

通过结合ESG-Bench和其他技术，可以开发出智能合规工具，帮助企业自动化合规流程，提高效率和准确性。

原文摘要

As corporate responsibility increasingly incorporates environmental, social, and governance (ESG) criteria, ESG reporting is becoming a legal requirement in many regions and a key channel for documenting sustainability practices and assessing firms' long-term and ethical performance. However, the length and complexity of ESG disclosures make them difficult to interpret and automate the analysis reliably. To support scalable and trustworthy analysis, this paper introduces ESG-Bench, a benchmark dataset for ESG report understanding and hallucination mitigation in large language models (LLMs). ESG-Bench contains human-annotated question-answer (QA) pairs grounded in real-world ESG report contexts, with fine-grained labels indicating whether model outputs are factually supported or hallucinated. Framing ESG report analysis as a QA task with verifiability constraints enables systematic evaluation of LLMs' ability to extract and reason over ESG content and provides a new use case: mitigating hallucinations in socially sensitive, compliance-critical settings. We design task-specific Chain-of-Thought (CoT) prompting strategies and fine-tune multiple state-of-the-art LLMs on ESG-Bench using CoT-annotated rationales. Our experiments show that these CoT-based methods substantially outperform standard prompting and direct fine-tuning in reducing hallucinations, and that the gains transfer to existing QA benchmarks beyond the ESG domain.

cs.CL cs.AI

参考文献 (20)

POT: Inducing Overthinking in LLMs via Black-Box Iterative Optimization

Xinyu Li, Tianjin Huang, Ronghui Mu 等

2025 5 引用查看解读 →

ESG investing: Does one score fit all investors’ preferences?

Cynthia Assaf, Jerome Monne, Loïc Harriet 等

2024 31 引用

Detecting hallucinations in large language models using semantic entropy

Sebastian Farquhar, Jannik Kossen, Lorenz Kuhn 等

2024 975 引用

Greenwashing in environmental, social and governance disclosures

E. Yu, B. Luu, C. Chen

2020 788 引用

TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension

Mandar Joshi, Eunsol Choi, Daniel S. Weld 等

2017 3528 引用查看解读 →

CROWD: Certified Robustness via Weight Distribution for Smoothed Classifiers against Backdoor Attack

Siqi Sun, Procheta Sen, Wenjie Ruan

2024 5 引用

Large Language Models are Zero-Shot Reasoners

Takeshi Kojima, S. Gu, Machel Reid 等

2022 6589 引用查看解读 →

How Do Companies Respond to Environmental, Social and Governance (ESG) ratings? Evidence from Italy

Ester Clementino, Richard Perkins

2020 379 引用

The independent and moderating role of choice of non-financial reporting format on forecast accuracy and ESG disclosure.

Paola Rossi, P. Candio

2023 16 引用

Investigating Hallucinations in Pruned Large Language Models for Abstractive Summarization

G. Chrysostomou, Zhixue Zhao, Miles Williams 等

2023 26 引用查看解读 →

TextVerifier: Robustness Verification for Textual Classifiers with Certifiable Guarantees

Siqi Sun, Wenjie Ruan

2023 5 引用

ESG Standards: Looming Challenges and Pathways Forward

T. Cort, D. Esty

2020 102 引用

Evaluating Multilingual Language Models for Cross-Lingual ESG Issue Identification

Wing Yan Li, Emmanuele Chersoni, C. Ngai

2024 2 引用

A Coefficient of Agreement for Nominal Scales

Jacob Cohen

1960 41806 引用

Government environmental protection expenditure and national ESG performance: Global evidence

Bingcheng Niu

2024 44 引用

Integration of Environmental, Social, and Governance (ESG) criteria: their impacts on corporate sustainability performance

Anrafel de Souza Barbosa, Maria Cristina Basílio Crispim da Silva, L.B. da Silva 等

2023 140 引用

RECKONING: Reasoning through Dynamic Knowledge Encoding

Zeming Chen, Gail Weiss, E. Mitchell 等

2023 16 引用查看解读 →

Mining company sustainability reports to aid financial decision-making

Tushar Goel, Palak Jain, Ishan Verma 等

2020 10 引用

Position: Building Guardrails for Large Language Models Requires Systematic Design

Yi Dong, Ronghui Mu, Gao Jin 等

2024 31 引用

Analyzing Sustainability Reports Using Natural Language Processing

A. Luccioni, Emi Baylor, N. Duchêne

2020 56 引用查看解读 →

ESG-Bench: Benchmarking Long-Context ESG Reports for Hallucination Mitigation

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

ESG报告

幻觉

大语言模型（LLM）

思维链（CoT）

问答（QA）任务

微调

HaluEval

BioASQ

监督学习

数据集

开放问题 这项研究留下的未解疑问

应用场景

近期应用

企业ESG审计

合规验证

长文本摘要

远期愿景

多语言ESG分析

智能合规工具

原文摘要

参考文献 (20)

相关论文

Neuron-Aware Data Selection In Instruction Tuning For Large Language Models

Mending the Holes: Mitigating Reward Hacking in Reinforcement Learning for Multilingual Translation

Interpretable Semantic Gradients in SSD: A PCA Sweep Approach and a Case Study on AI Discourse

Long-form RewardBench: Evaluating Reward Models for Long-form Generation

HMS-BERT: Hybrid Multi-Task Self-Training for Multilingual and Multi-Label Cyberbullying Detection

Sparking Scientific Creativity via LLM-Driven Interdisciplinary Inspiration

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问