科学家联合数据宝库EMR预测住院时间与患者死亡率
3930
电子医疗记录(EMR)是数据科学家真正的宝库,其中一些人建立了 人工智能 学习数据点之间的关系,以预测疾病发生率、治疗反应和其他患者结果。但EMR通常分布在不同的地理位置,这使得分析有些复杂,因为数据集必须首先传输到人工智能系统所在的机器(或多个机器)。
麻省理工学院CSAIL、哈佛大学医学院和清华大学艺术与设计学院的研究人员已经开发出了首批联合EMR模型培训方法之一,在一份新发表的论文中,他们描述了一种从当地医院获取数据的架构,为每个社区分配一个模型,并在服务器上聚合计算结果。
他们表示,他们的技术不仅降低了医院和模型托管服务器之间的数据传输成本,而且暴露了社区之间的不同之处,否则这些差异可能会被忽视。
该团队表示:“EMR由不同的患者个体和医院/诊所产生,其本质上是分布式的,而且非常敏感。这可能会阻碍在现实中将机器学习应用于EMR,而且研究人员需要面对集中存储EMR数据在安全性、经济效益、隐私保护和共享医疗数据可用性方面的问题。这些问题可以通过联合机器学习来解决,将数据和计算本地保留在分布式孤岛中,然后聚合本地计算结果来训练全局预测模型。”
为了验证他们的方法,这些研究人员收集了280,000个样本形成语料库。然后,科学家根据他们的共同特征将28,000名患者分为五个社区,他们将这些疾病聚集在医院层面以揭示潜在的偏差来源,并发现一些社区比其他社区偏差更大,从地理分布上看,一个主要来自南部医院,而另一个来自西部各州的医院。
利用手头的预处理数据,论文作者们着手预测了两件事:死亡率和住院时间。他们表示,来自相同和不同医院的训练和测试数据集的测试都表明,他们算法的准确性接近于集中学习的模型,并且在每一个预测任务上都优于现有的技术。
他们也注意到这个模型的局限性,主要是它没有考虑更多的功能和它的聚类方法的缺点,不过尽管如此,这仍是一项重大的进步。