Developing and evaluating a chatbot to support maternal health care

TL;DR

开发了一种支持印度孕产妇健康的聊天机器人，使用阶段感知分诊和混合检索，紧急召回率达86.7%。

cs.AI 🔴 高级 2026-03-14 1 次浏览

Smriti Jha Vidhi Jain Jianyu Xu Grace Liu Sowmya Ramesh Jitender Nagpal Gretchen Chapman Benjamin Bellows Siddhartha Goyal Aarti Singh Bryan Wilder

AI 阅读器 Arxiv 原文下载 PDF

孕产妇健康聊天机器人混合检索多语言处理高风险分诊

核心发现

方法论

该研究开发了一种用于印度孕产妇健康的聊天机器人系统，结合了阶段感知的分诊机制、基于策划指南的混合检索以及基于证据的生成模型。系统通过多层次的评估流程来确保高风险场景下的安全性。具体方法包括：• 阶段感知分诊：将高风险查询路由至专家模板。• 混合检索：在策划的孕产妇/新生儿指南上进行检索。• 证据条件生成：使用大型语言模型（LLM）进行生成。

关键结果

结果1：在标记的分诊基准测试中（N=150），系统实现了86.7%的紧急召回率，明确报告了漏报紧急情况与过度升级之间的权衡。
结果2：在合成的多证据检索基准测试中（N=100），系统使用块级证据标签进行评估。
结果3：在真实查询（N=781）上使用临床医生共同设计的标准进行LLM-as-judge比较，并通过专家验证。

研究意义

该研究在低资源、多语言环境中开发可信赖的医疗助手，具有重要意义。通过多方法评估和深度防御设计，系统能够在噪声环境中提供可靠的健康信息。这种方法不仅对学术界有贡献，也为实际应用提供了新的可能性，特别是在资源有限的地区，帮助提高孕产妇健康信息的可及性。

技术贡献

技术贡献包括：• 提出了一种阶段感知的分诊机制，能够根据孕产妇的不同阶段进行风险评估和路由。• 开发了混合检索系统，结合稀疏和密集检索技术，提高了检索的准确性和覆盖率。• 设计了多层次的评估策略，能够在有限专家监督下进行高风险场景的部署。

新颖性

该研究首次在孕产妇健康领域结合阶段感知分诊和混合检索技术，提供了一种新的解决方案。与现有工作相比，该系统能够更好地处理多语言、噪声环境中的短查询，并提供基于证据的生成。

局限性

局限1：系统在处理非常复杂的医学问题时可能会受到限制，因为它依赖于预定义的模板和检索到的证据。
局限2：由于依赖于特定的语言模型和检索机制，系统在其他语言或地区的适用性可能有限。
局限3：在某些情况下，系统可能无法完全替代人类专家的判断，特别是在涉及复杂医疗决策时。

未来方向

未来工作可以包括：• 扩展系统以支持更多语言和地区，增加其适用性。• 进一步优化检索和生成机制，以提高复杂查询的处理能力。• 开展更大规模的真实环境测试，以验证系统在不同场景下的表现。

AI 总览摘要

在全球公共卫生领域，提供有效的孕期医疗护理仍然是一项重大挑战。尽管世界卫生组织在确保产前护理访问方面取得了一定进展，但许多孕妇仍然缺乏医疗信息和专家护理的机会。为了应对这一问题，研究人员开发了一种新的聊天机器人系统，旨在为印度的孕产妇提供可靠的健康信息。

该系统由学术研究人员、健康科技公司、公共卫生非营利组织和医院合作开发，结合了阶段感知分诊、混合检索和基于证据的生成模型。阶段感知分诊能够识别高风险查询，并将其路由至专家模板，确保在紧急情况下提供适当的指导。混合检索则在策划的孕产妇/新生儿指南上进行检索，结合稀疏和密集检索技术，提高了检索的准确性和覆盖率。

在实验中，系统在标记的分诊基准测试中实现了86.7%的紧急召回率，明确报告了漏报紧急情况与过度升级之间的权衡。此外，合成的多证据检索基准测试和真实查询的LLM-as-judge比较也证明了系统的有效性。通过多层次的评估策略，研究人员能够在有限专家监督下进行高风险场景的部署。

该研究不仅在学术界具有重要意义，也为实际应用提供了新的可能性。特别是在资源有限的地区，系统可以帮助提高孕产妇健康信息的可及性，促进早期高风险妊娠的检测和健康行为的采用。

然而，系统在处理非常复杂的医学问题时可能会受到限制，因为它依赖于预定义的模板和检索到的证据。此外，由于依赖于特定的语言模型和检索机制，系统在其他语言或地区的适用性可能有限。未来工作可以包括扩展系统以支持更多语言和地区，进一步优化检索和生成机制，以及开展更大规模的真实环境测试。

深度分析

研究背景

孕产妇健康是全球公共卫生的一个关键领域，尽管在确保产前护理访问方面取得了一定进展，但许多孕妇仍然缺乏医疗信息和专家护理的机会。近年来，随着大语言模型（LLM）的发展，研究人员开始探索其在医疗信息获取中的潜力。然而，将原型转化为可部署系统仍然面临挑战，特别是在低资源、多语言环境中。现有的基于规则的聊天机器人在处理复杂的医疗问题时往往表现不佳，而LLM虽然在自然语言处理上表现出色，但在特定领域的定制化上存在不足。

核心问题

在低资源环境中，用户的健康素养普遍较低，获取医疗信息的渠道有限。用户查询往往简短、不明确，并且在语言上混合使用多种语言。回答这些查询需要区域上下文的支持，而部分或缺失的症状上下文使得安全的路由决策变得困难。现有系统在处理这些复杂问题时往往表现不佳，无法提供可靠的健康信息和指导。

核心创新

该研究的核心创新在于：• 阶段感知分诊：根据孕产妇的不同阶段进行风险评估和路由，确保在紧急情况下提供适当的指导。• 混合检索：结合稀疏和密集检索技术，提高了检索的准确性和覆盖率。• 基于证据的生成：使用大型语言模型进行生成，确保生成的答案基于可靠的证据。• 多层次评估策略：在有限专家监督下进行高风险场景的部署，确保系统的安全性和可靠性。

方法详解

�� 阶段感知分诊：使用结构化分类法，根据孕产妇的不同阶段进行风险评估和路由。• 混合检索：在策划的孕产妇/新生儿指南上进行检索，结合稀疏和密集检索技术。• 基于证据的生成：使用大型语言模型进行生成，确保生成的答案基于可靠的证据。• 多层次评估策略：在有限专家监督下进行高风险场景的部署，确保系统的安全性和可靠性。

实验设计

实验设计包括三个主要部分：• 标记的分诊基准测试：在150个样本上测试系统的紧急召回率。• 合成的多证据检索基准测试：在100个样本上使用块级证据标签进行评估。• 真实查询的LLM-as-judge比较：在781个样本上使用临床医生共同设计的标准进行评估，并通过专家验证。

结果分析

实验结果表明，系统在标记的分诊基准测试中实现了86.7%的紧急召回率，明确报告了漏报紧急情况与过度升级之间的权衡。在合成的多证据检索基准测试中，系统使用块级证据标签进行评估，显示出良好的检索性能。此外，真实查询的LLM-as-judge比较也证明了系统的有效性，专家验证进一步确认了系统的可靠性。

应用场景

该系统可以直接应用于印度的孕产妇健康信息服务，帮助提高健康信息的可及性和准确性。通过提供可靠的健康信息和指导，系统可以促进早期高风险妊娠的检测和健康行为的采用。此外，系统还可以用于其他低资源、多语言环境中的健康信息服务。

局限与展望

尽管系统在实验中表现良好，但在处理非常复杂的医学问题时可能会受到限制，因为它依赖于预定义的模板和检索到的证据。此外，由于依赖于特定的语言模型和检索机制，系统在其他语言或地区的适用性可能有限。未来工作可以包括扩展系统以支持更多语言和地区，进一步优化检索和生成机制，以及开展更大规模的真实环境测试。

通俗解读非专业人士也能看懂

想象一下你在厨房里做饭。你有一份食谱（就像我们的健康指南），但你需要根据不同的食材（就像不同的孕产妇阶段）来调整做法。我们的聊天机器人就像一个聪明的助手，它不仅能帮你找到食谱中的关键步骤，还能根据你手头的食材给出建议。比如，如果你发现冰箱里有一些快要过期的食材，它会提醒你优先使用这些食材，就像我们的系统会优先处理高风险的健康问题。这个助手还能用简单的语言告诉你每一步该怎么做，确保你做出的菜既美味又安全。

简单解释像给14岁少年讲一样

嘿，小伙伴！想象一下你在玩一个超级酷的游戏，这个游戏叫做“孕产妇健康守护者”。在游戏中，你需要帮助一位孕妈妈获得她需要的健康信息。她会给你发信息，但这些信息有时候很短，有时候用的是不同的语言。你的任务是找到最好的答案，就像在游戏中找到隐藏的宝藏一样！

为了完成任务，你有一个超级助手，它能帮你从各种指南中找到最重要的信息。这个助手就像游戏中的NPC（非玩家角色），它会告诉你接下来该怎么做，确保你不会错过任何重要的线索。

有时候，孕妈妈会问一些很紧急的问题，比如她感觉不太好。这个时候，你的助手会提醒你，这个问题很重要，需要马上处理，就像游戏中突然出现的紧急任务一样！

通过这个游戏，你不仅能帮助孕妈妈获得她需要的信息，还能学习到很多关于健康的知识。是不是很酷？

术语表

阶段感知分诊

一种根据孕产妇的不同阶段进行风险评估和路由的机制，确保在紧急情况下提供适当的指导。

用于识别高风险查询并将其路由至专家模板。

混合检索

结合稀疏和密集检索技术，提高检索的准确性和覆盖率。

在策划的孕产妇/新生儿指南上进行检索。

基于证据的生成

使用大型语言模型进行生成，确保生成的答案基于可靠的证据。

用于生成基于检索到的证据的答案。

LLM-as-judge

一种使用大型语言模型作为评估标准的方法，用于比较生成的答案与专家标准。

在真实查询上使用临床医生共同设计的标准进行比较。

紧急召回率

衡量系统在识别和处理紧急情况时的有效性，通常以百分比表示。

在标记的分诊基准测试中实现了86.7%的紧急召回率。

多层次评估策略

在有限专家监督下进行高风险场景的部署，确保系统的安全性和可靠性。

用于评估系统在不同场景下的表现。

稀疏检索

一种基于关键词匹配的检索技术，通常用于精确匹配。

在混合检索中与密集检索结合使用。

密集检索

一种基于语义相似性的检索技术，能够处理不同语言和表达方式的查询。

在混合检索中与稀疏检索结合使用。

块级证据标签

用于标记检索到的证据块是否直接与问题相关的标签。

在合成的多证据检索基准测试中使用。

专家模板

预定义的回答模板，用于处理高风险或紧急查询。

在阶段感知分诊中用于路由高风险查询。

开放问题这项研究留下的未解疑问

1 在低资源环境中，如何更好地处理多语言和噪声环境中的短查询仍然是一个挑战。现有系统在处理这些复杂问题时往往表现不佳，无法提供可靠的健康信息和指导。未来研究需要探索更有效的检索和生成机制，以提高系统的适用性和准确性。
2 尽管系统在实验中表现良好，但在处理非常复杂的医学问题时可能会受到限制，因为它依赖于预定义的模板和检索到的证据。未来研究需要探索更灵活的生成机制，以提高系统在复杂场景下的表现。
3 由于依赖于特定的语言模型和检索机制，系统在其他语言或地区的适用性可能有限。未来研究需要探索更通用的解决方案，以提高系统的跨语言和跨地区适用性。
4 在某些情况下，系统可能无法完全替代人类专家的判断，特别是在涉及复杂医疗决策时。未来研究需要探索如何更好地结合人类专家的知识和系统的自动化能力，以提高系统的可靠性。
5 如何在有限专家监督下进行高风险场景的部署仍然是一个挑战。未来研究需要探索更有效的评估策略，以确保系统在不同场景下的安全性和可靠性。

应用场景

近期应用

印度孕产妇健康信息服务

该系统可以直接应用于印度的孕产妇健康信息服务，帮助提高健康信息的可及性和准确性。

低资源环境中的健康信息服务

系统可以用于其他低资源、多语言环境中的健康信息服务，提供可靠的健康信息和指导。

早期高风险妊娠检测

通过提供可靠的健康信息和指导，系统可以促进早期高风险妊娠的检测和健康行为的采用。

远期愿景

跨语言和跨地区适用性

未来系统可以扩展以支持更多语言和地区，增加其适用性和影响力。

复杂医学问题的处理

未来系统可以进一步优化检索和生成机制，以提高复杂查询的处理能力，增强系统的智能化水平。

原文摘要

The ability to provide trustworthy maternal health information using phone-based chatbots can have a significant impact, particularly in low-resource settings where users have low health literacy and limited access to care. However, deploying such systems is technically challenging: user queries are short, underspecified, and code-mixed across languages, answers require regional context-specific grounding, and partial or missing symptom context makes safe routing decisions difficult. We present a chatbot for maternal health in India developed through a partnership between academic researchers, a health tech company, a public health nonprofit, and a hospital. The system combines (1) stage-aware triage, routing high-risk queries to expert templates, (2) hybrid retrieval over curated maternal/newborn guidelines, and (3) evidence-conditioned generation from an LLM. Our core contribution is an evaluation workflow for high-stakes deployment under limited expert supervision. Targeting both component-level and end-to-end testing, we introduce: (i) a labeled triage benchmark (N=150) achieving 86.7% emergency recall, explicitly reporting the missed-emergency vs. over-escalation trade-off; (ii) a synthetic multi-evidence retrieval benchmark (N=100) with chunk-level evidence labels; (iii) LLM-as-judge comparison on real queries (N=781) using clinician-codesigned criteria; and (iv) expert validation. Our findings show that trustworthy medical assistants in multilingual, noisy settings require defense-in-depth design paired with multi-method evaluation, rather than any single model and evaluation method choice.

cs.AI cs.CL cs.IR

参考文献 (20)

MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers

Wenhui Wang, Furu Wei, Li Dong 等

2020 1947 引用查看解读 →

Evaluating a retrieval-augmented pregnancy chatbot: a comprehensibility–accuracy-readability study of the DIAN AI assistant

P. Valan, Pulidindi Venugopal, Italy Anna Sandionigi Quantia Consulting srl 等

2025 2 引用

Facilitating Aboriginal Perinatal Mental Health Information Access with a Retrieval-Augmented LLM-based Chatbot

Made Srinitha Millinia Utami, Wai Hang Kwok, Jayne Kotz 等

2025 2 引用

Reciprocal rank fusion outperforms condorcet and individual rank learning methods

G. Cormack, C. Clarke, Stefan Büttcher

2009 784 引用

Towards Leveraging Large Language Models for Automated Medical Q&A Evaluation

Jack Krolik, Herprit Mahal, Feroz Ahmad 等

2024 16 引用查看解读 →

Comparing Physician and Artificial Intelligence Chatbot Responses to Patient Questions Posted to a Public Social Media Forum.

J. Ayers, Adam Poliak, M. Dredze 等

2023 1802 引用

RAG in Health Care: A Novel Framework for Improving Communication and Decision-Making by Addressing LLM Limitations

Karen Ka Yan Ng, Izuki Matsuba, Peter Chengming Zhang

2024 67 引用

Hindi Chatbot for Supporting Maternal and Child Health Related Queries in Rural India

Ritwik Mishra, Simranjeet Singh, Jasmeet Kaur 等

2023 8 引用

Language Ranker: A Metric for Quantifying LLM Performance Across High and Low-Resource Languages

Zihao Li, Yucheng Shi, Zirui Liu 等

2024 48 引用查看解读 →

MedCPT: Contrastive Pre-trained Transformers with Large-scale PubMed Search Logs for Zero-shot Biomedical Information Retrieval

Qiao Jin, Won Kim, Qingyu Chen 等

2023 218 引用查看解读 →

Gender Bias in Large Language Models across Multiple Languages: A Case Study of ChatGPT

Yitian Ding, Jinman Zhao, Chen Jia 等

2025 12 引用

Building Certified Medical Chatbots: Overcoming Unstructured Data Limitations with Modular RAG

Leonardo Sanna, Patrizio Bellan, Simone Magnolini 等

2024 4 引用

A Chatbot for Perinatal Women’s and Partners’ Obstetric and Mental Health Care: Development and Usability Evaluation Study

K. Chung, Hee-Young Cho, Jin Young Park

2020 68 引用

HEALTH-PARIKSHA: Assessing RAG Models for Health Chatbots in Real-World Multilingual Settings

Varun Gumma, Anandhita Raghunath, Mohit Jain 等

2024 7 引用查看解读 →

A Survey on LLM-as-a-Judge

Jiawei Gu, Xuhui Jiang, Zhichao Shi 等

2024 1078 引用查看解读 →

An Analysis of Fusion Functions for Hybrid Retrieval

Sebastian Bruch, Siyu Gai, A. Ingber

2022 60 引用查看解读 →

Taxonomy of Risks posed by Language Models

Laura Weidinger, Jonathan Uesato, Maribeth Rauh 等

2022 851 引用

RAGAs: Automated Evaluation of Retrieval Augmented Generation

ES Shahul, J. James, Luis Espinosa Anke 等

2023 524 引用查看解读 →

Artificial Intelligence for Women and Child Healthcare: Is AI Able to Change the Beginning of a New Story? A Perspective

Patricia Takako Endo

2025 4 引用

Retrieval-Augmented Generation for Large Language Models: A Survey

Yunfan Gao, Yun Xiong, Xinyu Gao 等

2023 2994 引用查看解读 →

Developing and evaluating a chatbot to support maternal health care

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

阶段感知分诊

混合检索

基于证据的生成

LLM-as-judge

紧急召回率

多层次评估策略

稀疏检索

密集检索

块级证据标签

专家模板

开放问题 这项研究留下的未解疑问

应用场景

近期应用

印度孕产妇健康信息服务

低资源环境中的健康信息服务

早期高风险妊娠检测

远期愿景

跨语言和跨地区适用性

复杂医学问题的处理

原文摘要

参考文献 (20)

相关论文

Beyond Final Answers: CRYSTAL Benchmark for Transparent Multimodal Reasoning Evaluation

Structured Distillation for Personalized Agent Memory: 11x Token Reduction with Retrieval Preservation

Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training

Portfolio of Solving Strategies in CEGAR-based Object Packing and Scheduling for Sequential 3D Printing

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问