2019年12月9日,网络信息中心在职攻读博士邹松在教育技术楼C404进行了“基于深度学习的行为识别”的学术讲座。
邹松博士从视频的空间和时间两个方面进行了细致的讲解。视频天生地可以由空间和时间两个部分组成。空间部分,每一帧代表的是表观信息,比如形状、颜色等等。而时间部分信息是指帧之间实体的运动,包括摄像机的运动或者目标物体的运动信息。两流行为识别法的相应的由两个深度网络组成,分别处理时间与空间的维度。每个网络都是由CNN和最后的softmax层组成。最后分类结果由两个单独的深度网络融合而成。视频采集的是在连续的时间维度下三维空间实体投射在二维图像空间。相比于两流法分离了表观信息和运动信息,使用一个单独的网络来联合编码两者会使得人体行为识别的准确性和效率更高。本研究从蒸馏知识的概念得到启发,把一个复杂的模型学习到的知识转移到一个简单的模型,使得简单的模型有复模型同等的表达能力。在行为识别中,这个复杂的模型可以是一个具有高识别能力的模型,比如一个使用连续多帧堆叠的光流作为输入的模型。本研究把表达表观特征的静态空间图像网络和表达运动特征的连续多帧堆叠的光网络联合转移到一个输入为静态空间图像的网络中,这样得到的蒸馏网络具有同时表达表观特征和运动特征的能力。
网络中心全体职工在讲座结束后,纷纷表示邹松博士的科研水平很高,以后经常进行学术交流。