|国家科技期刊平台
首页|期刊导航|电子学报|基于文本引导下的多模态医学图像分析算法

基于文本引导下的多模态医学图像分析算法OA北大核心CSTPCD

中文摘要

结合胃镜超声和白光内镜可以更准确地识别胃肠道间质瘤.但是现有的多模态方法往往仅关注于图像特征,忽略了诊断文本信息中所包含的语义信息对于精确理解和诊断医学图像的重要性.为此,本文提出一种新的基于文本引导下的多模态医学图像分析算法框架(Text-guided Multi-modal Medical image analysis framework,TMM-Net).TMM-Net使用多阶段的诊断文本来引导模型学习,以提取图像中的关键诊断信息特征,然后通过交叉模态注意力机制促进多模态特征之间的交互.值得注意的是,TMM-Net通过预测病变属性来模拟临床诊断过程,从而增强了可解释性.验证实验在两个中心包含10 025个模态数据对的数据集上进行.结果表明,该方法相比目前最优的GISTs诊断方法精度提升7.7%,同时获得了最高的(Area Under the Curve,AUC)值:0.927,其可解释性可以更好地适合临床需求.

樊琳;龚勋;郑岑洋;

西南交通大学计算机与人工智能学院,四川成都611756 可持续城市交通智能化教育部工程研究中心,四川成都611756 综合交通大数据应用技术国家工程实验室,四川成都611756 四川省制造业产业链协同与信息化支撑技术重点实验室,四川成都611756

计算机与自动化

多模态融合模型可解释性图像-文本匹配胃肠道间质瘤胃镜超声白光内镜

《电子学报》 2024 (007)

P.2341-2355 / 15

国家自然科学基金(No.62376231);四川省重点研发项目(No.2023YFG0267);四川省卫生健康委员会科技项目(No.23LCYJ022)~~。

10.12263/DZXB.20231135

评论