谷歌详细介绍了可以对人类胸部X射线进行准确分类的AI

用机器学习算法分析胸部X射线图像说起来容易做起来难。这是因为通常情况下,训练这些算法所需的临床标签是通过基于规则的自然语言处理或人工注释获得的,这两种方法都容易引起不一致和错误。此外,要组装代表各种病例的数据集,并仅给出图像就建立具有临床意义且一致的标签是很困难的。

为了推动有关X射线图像分类的目标,Google的研究人员设计了AI模型,以在人类胸部X射线上发现以下四个发现:气胸(塌陷的肺),结节和肿块,骨折和空洞混浊(用材料填充肺树)。在《自然》杂志上发表的一篇论文中,研究小组称,该模型族在人类专家进行的独立审查中使用了带有高质量标签的数据集中的数千张图像进行了评估,证明了其在放射线水平上的表现。

该研究的发表是在Google AI和西北医学科学家创建了一个能够从筛查测试中检测肺癌的模型之后的几个月,该模型要比具有平均八年经验的人类放射学家更好,并且大约在纽约大学使用Google的Inception v3机器学习模型后一年以检测肺癌。AI还通过眼睛扫描以及这家技术公司的子公司DeepMind的AI来支持该技术巨头在糖尿病性视网膜病变诊断方面的进步,该AI可以为94种准确度建议的50种眼部疾病推荐正确的治疗方法。

这项较新的工作利用了来自两个未识别数据集的600,000张图像,其中第一个是与阿波罗医院合作开发的,其中包括多年来从多个位置收集的X射线。至于第二语料库,它是美国国立卫生研究院(National Institutes of Health)发布的可公开获得的ChestX-ray14图像集,该图像集过去一直是AI努力的资源,但准确性存在缺陷。

研究人员开发了一个基于文本的系统,使用与每个X射线相关的放射学报告提取标签,然后他们将其应用于为阿波罗医院数据集中的560,000张图像提供标签。为了减少基于文本的标签提取引入的错误并为大量ChestX-ray14图像提供相关标签,他们招募了放射科医生来审查两个语料库中的大约37,000张图像。

下一步是生成用于模型评估目的的高质量参考标签。采用了基于小组的程序,其中三名放射科医生审查了所有最终调谐和测试集图像,并通过在线讨论解决了分歧。研究的共同作者说,这使得最初仅由一名放射科医生发现的困难发现得以识别和适当记录。

Google指出,尽管这些模型总体上达到了专家级的准确性,但整个语料库的性能却有所不同。例如,对于放射科医师,对于ChestX-ray14图像,检测气胸的敏感性约为79%,而在其他数据集上,对于同一放射科医师,其敏感性仅为52%。

Google研究科学家David Steiner博士和Google Health技术负责人Shravya Shetty在博客文章中写道:“数据集之间的性能差异……强调了需要具有准确参考标准的标准化评估图像集,以便进行研究之间的比较。”谁为论文做出了贡献。“ [模型]通常会确定放射科医生始终忽略的发现,反之亦然。因此,将[AI]系统和人类专家的独特“技能”结合在一起的策略可能最有希望实现AI在医学图像解释中的应用潜力。”

研究团队希望通过为ChestX-ray14数据集提供裁定标签的全集来为高级方法打下基础,他们已经在开源中提供了这些信息。它包含2,412个训练和验证集图像和1,962个测试集图像,或总共4,374张图像。

“我们希望这些标签能够促进未来的机器学习工作,并能够在机器学习模型之间更好地进行苹果之间的比较,以进行胸部X射线解释,” Steiner和Shetty写道。