使用深度神经网络对视觉、语言等不同模态信息进行统一建模的多模态深度学习是近年来的研究热点，在跨媒体检索、视觉内容描述、视觉问答等典型的多模态深度学习任务上均取得了显著的进展。得益于深度自注意力网络模型Transformer和预训练方法BERT在自然语言领域的快速发展，多模态深度学习的研究逐渐由各个任务“分而治之”向“通用统一”的方向演变，即使用单个框架适配多种类型不同的多模态任务。本报告首先对多模态深度学习发展过程中的代表性工作进行简要介绍；然后对当前通用多模态深度学习领域的三类代表性方法：基于多模态多任务联合学习、多模态神经架构搜索、多模态预训练的若干代表性工作进行详细介绍；最后，对通用多模态深度学习未来的发展进行展望和反思。

报告人简介：

俞俊，杭州电子科技大学计算机学院院长、教授、博士生导师，国家杰出青年基金获得者。主要研究方向为跨媒体分析技术。相关工作发表于SCI源期刊论文100余篇，包括ACM汇刊与IEEE汇刊及CCF A类会议40余篇。论文的Google Scholar引用次数10000余次。10余篇论文入选ESI高被引/热点论文；近年来主持科技部重点研发计划、国家自然科学基金重点项目、国家自然科学基金面上项目等，2015、2016、2017连续获得IEEE TMM、TIP、TCYB最佳论文奖，2018年教育部自然科学二等奖，2021年浙江省自然科学一等奖。担任多个国际期刊的副编辑。

打印: