文本视觉问答综述OA北大核心CSTPCD
Survey of Text-based Visual Question Answering
传统视觉问答(VQA)大多只关注图像中的视觉对象信息,忽略了对图像中文本信息的关注.文本视觉问答(TextVQA)除了视觉信息外还关注了图像中的文本信息,能够更加准确并高效地回答问题.近年来,TextVQA已经成为多模态领域的研究热点,在自动驾驶、场景理解等包含文本信息的场景中有重要的应用前景.阐述TextVQA的概念以及存在的问题与挑战,从方法、数据集、未来研究方向等方面对TextVQA任务进行系统性的分析.总结现有的TextVQA研究方法,并…查看全部>>
Traditional Visual Question Answering(VQA)only focuses on the visual object information in the image,ignoring the text information in the image.In addition to visual information,Text-based Visual Question Answering(TextVQA)also focuses on the text information in the image,which can answer questions more accurately and efficiently.In recent years,TextVQA has become a research focal point in the field of multimodality,and it has important application prospects…查看全部>>
朱贵德;黄海
浙江理工大学计算机科学与技术学院(人工智能学院),浙江 杭州 310018浙江理工大学计算机科学与技术学院(人工智能学院),浙江 杭州 310018
计算机与自动化
文本视觉问答文本信息自然语言处理计算机视觉多模态融合
Text-based Visual Question Answering(TextVQA)text informationnatural language processingcomputer visionmultimodal fusion
《计算机工程》 2024 (2)
1-14,14
国家自然科学基金面上项目(62272416).
评论