高等教育 > 专著
场景文字视觉问答技术理论与实践研究
书号:9787113319915 套系名称:无
作者:方承炀 出版日期:2024-12-01
定价:68.00 页码 / 开本:无 /16
策划编辑:曹莉群 责任编辑:贾星 徐盼欣
适用专业:专著 适用层次:高等教育
最新印刷时间:2024-12-01
资源下载
教学课件(暂无)
教学素材(暂无)
习题答案(暂无)
教学案例(暂无)
教学设计(暂无)
教学视频(暂无)
内容简介
前言
目录
作者介绍
图书特色
本书从实际应用的角度出发,首先论述场景文字视觉问答的最新进展和技术方向,之后分别针对当前场景文字视觉问答模型缺乏场景文字语义含义和语义差异的理解能力、缺乏场景文字间的上下文语义关系建模能力以及缺乏将自然场景中强关联场景文字的聚类划分能力等问题,进行理论分析并提出相应方法,最后对未来的工作进行了展望。 本书技术内容前沿,条理清晰,适合作为计算机与人工智能相关行业专业技术人员的参考书。
随着信息技术、移动互联网的快速发展,对人工智能的技术要求已经从处理单一的文本、图片、音频等数据形式的感知智能进化到同时处理文本、图像、视频以及语音等多源异构数据组成的多模态数据形式的认知智能。此外,多种模态数据所构成的任务在日常生活中随处可见,例如,当人们观察自然场景并尝试回答与之相关的问题时,便构成了一般的视觉问答任务。实际上,在自然场景中,人类更关注的是其中的场景文字信息,这需要模型具备阅读场景文字、理解场景文字以及回答与场景文字相关问题的能力,这便是本书的中心:场景文字的视觉问答任务。然而,当前的方法存在以下几个问题:① 无法理解场景文字的语义含义以及语义差异;② 默认将所有场景文字拼接成一个句子来处理,无法分辨场景文字间是否存在语义关联性,也无法构建场景文字间复杂的空间位置关系;③ 无法准确地将具有强关联性的场景文字聚类。 本书主要研究点如下: (1)针对当前工作中场景文字语义理解与差异辨识所面临的挑战,本书提出一种以场景文本语义为中心的视觉问答方法。该方法首先设计了一种以场景文本语义为中心的模型结构,使答案预测过程更加聚焦于问题、场景文字及答案之间的语义交互。其次,引入了实例级别的对比学习语义预测模块,通过预测答案的文本语义特征,评估答案语义的合理性。实验结果表明,该方法在多个常用数据集上的性能较基线模型有显著的提升。 (2)针对当前工作无法分辨场景文字间是否存在语义关联性以及无法构建场景文字间复杂空间位置关系的问题,本书提出基于文本语义上下文学习及空间表示的场景文字视觉问答方法。该方法首先提出了文本语义分离模块可以帮助从场景文字视觉及位置的信息推理判断各个场景文字之间是否具有语义上下文关系。其次,提出了空间圆位置模块,通过计算每个场景文字之间的相对距离帮助模型更好地构建和推理场景文字之间的复杂空间位置关系。实验结果表明,该模型在多个常用数据集上较基线模型有大幅度的性能提升。 (3)针对当前工作无法准确地将具有强关联性的场景文字聚类从而给模型提供有益的先验知识的问题,本书提出了基于图像分割和匹配的场景文字视觉问答方法。该方法首先提出了场景文字载体分割和匹配模块,帮助自然场景中的所有场景文字找到其所属载体,提供给模型良好的先验知识。其次,提出了分层视觉特征融合模块,帮助模型从多粒度视觉角度全面理解场景文字之间的上下文。实验结果表明,该模型在多个常用数据集上较基线模型有较大的性能提升。 场景文字视觉问答技术理论与实践研究前言上述三个研究点主要从场景文字视觉问答任务中场景文字本身的语义理解能力、场景文字之间上下文语义判断和空间关系的建模能力以及场景文字间关联度聚类划分的角度进行了深入探索。这三个研究点之间相辅相成,其内在联系见下图。 本书共七章,总体组织结构及每章内容简介如下: 第1章论述场景文字视觉问答任务的研究背景以及研究意义。 第2章论述自然场景文本分析与视觉问答任务,先讲解自然场景文本检测与识别的概念、方法和挑战,再阐释视觉问答任务的定义、流程和关键方法,最后论述数据库。 第3章论述场景文字视觉问答任务涉及的深度学习技术、基于编码器和解码器的场景文字视觉问答方法、基于图神经网络的场景文字视觉问答方法以及基于预训练任务的场景文字视觉问答模型和场景文字视觉问答任务的主要数据集和评测指标。 第4章论述场景文字视觉问答方法,旨在提高模型对场景文字语义的理解能力,减少对光学字符识别系统性能和训练数据集语言偏置的依赖。 第5章论述基于文本语义上下文学习及空间表示的场景文字视觉问答方法,通过文本语义分割模块和空间圆位置模块,增强模型对场景文字空间位置建模能力。 第6章论述基于图像分割和匹配的场景文字视觉问答方法,通过增强模型对场景文字间关联度的聚类划分能力,来降低模型推理答案的难度。 第7章为总结与展望。该章对本书的主要研究内容及贡献进行概括性总结。最后,针对存在的问题及未来探索方向进行分析和展望。 在撰写本书的过程中,笔者参考了国内外众多研究者的工作,衷心地感谢文献作者对场景文字视觉问答领域的贡献。 最后,衷心希望本书能够给读者带来启发,引发更多有意义的研究工作,相信场景文字视觉问答将得到进一步的发展,更好地造福社会。 由于笔者水平有限,书中错误和疏漏之处在所难免,欢迎各位读者批评指正。 方承炀 2024年8月
第1章 场景文字视觉问答的探索之旅 1.1 场景文字视觉问答的缘起 1.2 场景文字视觉问答技术的发展现状 1.3 语义鸿沟:场景文字理解的挑战 小结 第2章 自然场景文本分析与视觉问答任务:方法、挑战与数据综述 2.1 文字检测识别综述 2.1.1 了解文字检测识别 2.1.2 文字检测识别的背景 2.1.3 基于深度学习的自然场景文本检测方法 2.1.4 基于深度学习的自然场景文本识别方法 2.1.5 基于深度学习的端到端的自然场景文本识别方法 2.2 视觉问答综述 2.2.1 视觉问答任务概述 2.2.2 视觉问答的挑战 2.2.3 视觉问答的关键方法 2.2.4 数据集介绍 小结 第3章 场景文字问答技术概述 3.1 场景文字视觉问答技术相关深度学习模型 3.1.1 视觉特征提取模型 3.1.2 语义特征提取模型 3.1.3 多模态融合模型 3.2 场景文字视觉问答技术的发展 3.2.1 基于编码器和解码器框架的场景文字视觉问答模型 3.2.2 基于图神经网络的场景文字视觉问答模型 3.2.3 针对预训练任务的场景文字视觉问答模型 3.2.4 基于数据增强的场景文字视觉问答方法 3.3 场景文字视觉问答技术的数据集和评测指标 3.3.1 主要数据集 3.3.2 评测指标 小结 第4章 以场景文本语义为中心的场景文字视觉问答模型 4.1 场景文本语义理解的挑战与机遇 4.2 场景文字视觉问答的模型结构创新 4.2.1 场景文字模型结构设计相关工作 4.2.2 证据引导的答案生成模块相关工作 4.3 以场景文本语义为中心的模型 4.3.1 多模态特征提取模块 4.3.2 以语义为中心的Transformer模块 4.3.3 实例级别的语义对比学习预测模块 4.3.4 训练损失 4.4 实验结果与分析 4.4.1 实验设置 4.4.2 消融实验 4.4.3 对比实验 4.4.4 可视化分析 小结 第5章 基于文本语义上下文学习及空间表示的场景文字视觉问答方法 5.1 场景文本视觉问答的语义与空间挑战 5.2 场景文本关系建模与空间编码进展 5.2.1 场景文字关系建模相关工作 5.2.2 空间位置编码相关工作 5.3 文本语义与空间表示结合的场景文字视觉问答方法 5.3.1 多模态特征提取模块 5.3.2 文本语义分割模块 5.3.3 空间圆位置模块 5.3.4 训练损失 5.4 实验结果与分析 5.4.1 实验设置 5.4.2 对比实验 5.4.3 消融实验 5.4.4 可视化分析 小结 第6章 基于图像分割和匹配的场景文字视觉问答方法 6.1 图像分割与匹配在场景文字视觉问答中的应用 6.2 技术背景与方法论 6.2.1 基于文本聚类技术的场景文字视觉问答方法 6.2.2 基于SAM的视觉语言模型 6.3 基于图像分割和匹配的场景文字视觉问答方法 6.3.1 多模态特征提取模块 6.3.2 场景文字载体分割和匹配模块 6.3.3 分层视觉特征融合模块 6.3.4 训练损失 6.4 实验结果与分析 6.4.1 实验设置 6.4.2 对比实验 6.4.3 消融实验 小结 第7章 面向场景文本的视觉问答技术展望 7.1 场景文本视觉问答技术总结 7.2 未来工作展望 小结 参考文献
方承炀,毕业于中国科学院信息工程研究所,江西财经大学计算机与人工智能学院讲师,专业方向主要为多模态信息内容理解以及计算机视觉,具体为场景文字视觉问答、场景文字视觉描述以及场景文字检测识别等。在国际高水平学术期刊和会议发表论文六篇。
1. 本书是一本深度探索人工智能前沿领域的专业著作。在人工智能从感知智能迈向认知智能的关键阶段,场景文字视觉问答成为技术突破的重要领域。本书直击现有方法痛点,提出三大创新研究方法,通过独特模型设计与模块构建,显著提升任务性能,为读者呈现极具价值的学术成果。 2.全书逻辑清晰,从基础理论到前沿技术层层递进,详细阐述模型原理与实验过程。无论是科研工作者、高校师生,还是技术从业者,都能从中获取启发,是推动人工智能多模态技术发展的重要参考。