携手健康网携手健康网

合成数据模拟真实医疗保健数据无需担心患者隐私

COVID-19 大流行加速了快速了解如何最好地对抗病毒的需求,但它也对启动涉及实际患者的研究提出了挑战,例如在患者病情危重时获得同意或招募可能不愿离开他们的患者家。

但是,如果可以使用模拟真实患者人群的合成数据集进行某些研究,但不会承担披露受保护健康信息的风险,那会怎样?这就是圣路易斯华盛顿大学医学院信息学研究所的一项倡议背后的目标。该研究所正在向大学研究人员提供更广泛的合成数据集,目的是加快可以挽救生命的研究。

该研究所表明,名为 MDClone 的软件可以根据电子健康记录中的真实患者数据准确生成合成数据。

在最近发表在《美国医学信息学协会杂志:开放》上的一项研究中,信息学研究所的研究人员表明,合成数据准确地模拟了使用真实患者数据集进行的临床研究的结果。

该软件没有采取传统步骤在数据集中隐藏真实患者的身份,而是生成一组新的模拟患者,这些患者在总体上重新创建真实患者的特征,例如体重指数、血压和肾功能。这些模拟患者在真实数据中没有直接对应物,因此真实患者的身份和隐私受到保护。

“我们已经意识到合成数据的力量,可以加速涉及真实患者数据的问题的提问和回答过程,”资深作者、珍妮特和伯纳德贝克尔教授、华盛顿大学信息学研究所所长菲利普罗佩恩说。“我们无需花费数周和数月的时间,就能实时与数据交互,同时还能保持最高级别的隐私和数据安全。

“我们希望确保华盛顿大学的每位研究人员都能获得这些相同的能力,以推进对一系列疾病、病症和人群的研究和发现,”他说。“我们正在努力接触我们的研究社区并帮助他们获得这种新功能,并期待未来使用该软件成为评估涉及临床数据的假设的标准。”

该大学正在与提供该软件用于研究的公司 MDClone 合作。公司软件用于生成合成数据的方法,以及使用该软件的计算和网络环境,都旨在满足最严格的患者隐私和保密要求。因此,无法将任何合成数据与真实人物及其身份联系起来。但是,研究人员确实完成了培训课程并签署了数据使用协议,以确保负责任地使用此类合成数据并仅用于科学研究目的。

例如,研究人员可以进行查询,询问哪些住院的 COVID-19 患者死亡风险最高,或者哪些药物与 COVID-19 患者的更好结果相关。

“通过这个系统,研究人员可以在几分钟或几小时内建立自己的查询并下载合成数据集,”第一作者、医学副教授兼人口健康信息学中心主任 Randi E. Foraker 说。“它确实加快了研究过程。通常可能需要几个月的时间可以在同一天完成,有时只需几分钟,合成数据。”

最近的研究比较了对三个不同数据集的分析结果。第一个数据集用于分析儿科创伤患者的死亡风险。第二个数据集被用来预测哪些住院患者最有可能发生败血症,这是一种危及生命的全身感染反应。第三个用于生成圣路易斯地区一年内按邮政编码划分的衣原体感染率地图。

研究人员发现,合成数据分析的结果在统计上与真实数据的分析相似,使用任何一种类型的数据都得出相同的结论。在不止一种情况下,结果是相同的,在极少数情况下,真实数据集和合成数据集之间存在统计差异。

“我们的三项分析表明,合成数据相对于原始数据表现良好,但我们仍在测试合成数据可以做什么的外部极限,”Foraker 说。“不能保证在每种情况下合成数据都会完全模仿原始数据。我们鼓励研究人员进行自己的验证研究。如果研究人员想对合成数据进行查询,请在请求访问之前获得一些初步结果或生成一些假设到真实数据,这将是对这个平台的一个很好的利用。它也是学生有机会处理真实患者数据的绝佳资源。”

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。