1130
浏览视觉语言导航系统路径决策论文提纲---视觉语言导航系统的路径决策多模态算法研究与实现
摘要:视觉语言导航是一项集计算机视觉和自然语言处理于一体的跨模态任务。该任务要求模型转换和处理图像和自然语言两种不同格式的信息,获取信息,并在模拟的真实3D环境中完成导航任务。目前,大多数相关研究倾向于通过更好地处理图像和自然语言信息或改进导航算法来提高视觉语言导航模型的性能,而忽略了智能机器人从环境中获取更多信息的可能性。在分析了任务数据集中的自然语言指令后,我们发现区域信息在自然语言指令中占有相当大的比例,平均每个指令出现约两个区域信息词。结合我们在生活中根据指令导航的实际经验,本文提出了使用区域信息辅助导航的模型。本文提出的区域信息模型集成了从图像中获取的当前区域信息和根据自然语言指令预测的下一个区域信息,并将跨模式信息处理作为先验信息辅助智能机器人的导航模型进行训练和导航。在对多个开源视觉语言导航模型进行实验后,发现使用区域信息进行辅助训练和导航可以提高导航成功率,特别是在该任务的关键指标成功路径长度方面。同时,在模型中添加区域信息后,导航模型在陌生环境中的性能也得到了提高。同时,视觉语言导航任务的研究主要是英语研究。在现有成果的基础上,本文对数据集进行了汉化处理,研究了汉语视觉语言导航任务,取得了良好的性能。
关键词:视觉语言导航;区域信息;强化学习;跨模态;中文导航;
摘要
Abstract
1 引言
1.1 课题背景及研究意义
1.2 国内外研究现状
1.3 本文的主要研究内容和创新点
2 视觉语言导航任务模型整体框架
2.1 视觉语言导航任务简介
2.2 编码-解码结构
2.3 注意力机制在导航模型中的应用
2.4 导航者-评价者模型
2.5 基于强化学习的导航模型
3 数据集和基准模型
3.1 MatterPort3D数据集
3.2 Room-to-Room数据集
3.3 Room-to-Room数据集汉化
3.4 Sequence-to-Sequence模型以及Speaker-Follower模型
3.5 Regretful模型以及Dropout模型
4 基于区域信息融合的视觉语言导航模型
4.1 区域信息
4.2 区域信息提取和区域信息记忆模块
4.3 融合区域信息的视觉语言导航模型
5 导航模型的实验结果与分析
5.1 实验的相关细节
5.2 基准模型的实验复现
5.3 实验结果对比与分析
5.4 实验结果示例
5.5 中文视觉语言导航任务的实验
结论
参考文献
致谢