在现实世界中,电子健康记录(EHR)和索赔数据是医疗信息的宝贵来源,它们记录了患者的健康状况和医疗利用情况。然而,要使用这些数据回答流行病学问题,我们必须面对医学术语的复杂性以及编写复杂SQL查询的需求。为了解决这一挑战,我们提出了一种创新的解决方案,该方案整合了文本到SQL的生成技术和检索增强生成(RAG)技术,以利用EHR和索赔数据来解答流行病学问题。 我们的研究发现,将医学编码步骤集成到文本到SQL的过程中,可以显著提高性能,超越了简单的提示输入方法。尽管目前的语言模型在没有监督的情况下准确性还不够,但我们的实证研究显示,在真实的工业环境中,RAG技术的应用具有很大的潜力,有望显著提升语言模型的能力。

研究方法

  • 数据集构建:我们通过手动策划过程创建了数据集,涉及流行病学研究中的典型问题,并遵循了广泛采用的观察医疗结果合作伙伴共同数据模型(OMOP CDM)。

  • 方法论:我们使用大型语言模型(LLM)提示来将自然语言问题转换为SQL查询,并通过引入一个步骤,让LLM生成带有医学实体占位符的SQL,然后将这些占位符映射到精确的临床本体术语。

  • 评估:我们使用DE-SynPUF数据集进行评估,这是一个包含数百万受益人记录、索赔记录和处方药事件记录的合成数据集。我们手动比较了通过参考查询和生成查询检索到的数据。

结果与讨论

  • 详细的提示可以提高执行分数,但对准确性的影响因模型而异。
  • 通过RAG技术包含相关示例显著一致地提高了性能。
  • 提供单个示例(RAG-top1)可以大幅提高性能,但增加更多顶级结果(RAG-top2和RAG-top5)并未带来类似的提升。
  • GPT-4 Turbo在所有测试场景中表现最佳,其次是GPT-3.5 Turbo。

结论我们的研究展示了使用现实世界数据回答流行病学问题的可行性,并证明了RAG技术在提高性能方面的有效性。我们的研究将RAG技术的效用从一般文本到SQL基准扩展到了小型、特定领域的生物医学数据集,强调了其在数据稀缺的行业环境中的实用性。未来的研究应该扩大研究范围和规模,以克服数据集规模有限和专注于流行病学问题的限制。

图片