生成式人工智能在生成影像学报告方面的表现评估OACSTPCD
目的评估2种生成式人工智能(AI)在生成腹部影像学报告方面的表现,并与人类医师进行比较。方法回顾性研究2023年6月至2024年5月在中山大学附属第三医院接受腹部CT和MRI检查的300例患者的影像学报告。使用生成式AI模型ERNIE 4.0和Claude 3.5 Sonnet对300例患者的影像学所见重新生成影像学报告,由5名放射科医师采用五点Likert量表(1表示强烈不同意,5表示强烈同意)评估其完整性、准确性、表达、幻觉和无修改接受度。采用Friedman和Nemenyi检验进行统计学分析。比较生成式AI与人类医师的表现差异。结果研究共纳入300例患者的影像学报告。在完整性方面,Claude 3.5 Sonnet与人类医师相当,均优于ERNIE 4.0[(4.86±0.37)分vs.(4.76±0.46)分vs.(4.40±0.64)分,前两者比较P=0.200,前两者与后者比较P均<0.01]。在准确性方面,人类医师优于2种AI模型[(4.96±0.22)分vs.(4.66±0.57)分vs.(4.69±0.57)分,前者与后两者比较P均<0.01]。在无修改可接受度方面,Claude 3.5 Sonnet与人类医师相当,均优于ERNIE 4.0[(4.64±0.53)分vs.(4.69±0.54)分vs.(4.30±0.59)分,前两者比较P=0.595,前两者与后者比较P均<0.01]。在表达和幻觉上,三者比较差异无统计学意义(P均>0.05)。结论Claude 3.5 Sonnet生成的影像学报告与人类医师水平相当。这提示先进的生成式AI有潜力辅助人类医师的工作,有助于提高效率并减轻认知负担。
黎超;陈优美;段亚妮;陈耀萍;陈秀珍;覃杰
中山大学附属第三医院放射科,广东广州510630中山大学附属第三医院放射科,广东广州510630中山大学附属第三医院放射科,广东广州510630中山大学附属第三医院放射科,广东广州510630中山大学附属第三医院放射科,广东广州510630中山大学附属第三医院放射科,广东广州510630
临床医学
生成式人工智能自然语言处理影像学报告腹部
《新医学》 2024 (11)
P.853-860,8
国家自然科学基金青年科学基金项目(82202129)广东省自然科学基金面上项目(2017A030313841)中山大学附属第三医院国家自然科学基金培育专项项目(2021GZRPYM06)中山大学附属第三医院“五个五”工程项目(2023WW605)。
评论