人工智能探索2浅谈人类视觉系统的物体识别( 三 )


人类视觉系统为什么形成两条通路,分别处理空间和时域信号?背后的机理是什么?我们相信这是一个经过长期进化形成的高效的视觉系统 。2014年,牛津大学的Andrew Zisserman教授借鉴人类视觉系统的双通路机制 , 设计了双通路卷积网络(Two-stream Convolutional Networks)用于视频中的物体识别[4] 。该模型分为空间通路(Spatial stream,SS)和时域通路(Temporal stream,TS),SS采用AlexNet,并预先在ImageNet数据库训练[10] 。

人工智能探索2浅谈人类视觉系统的物体识别

文章插图
Figure from Ref[4]
TS采用未经训练的AlexNet , 输入数据为视频帧与帧间的光流信息(Optical Flow Displacement Field) 。文章尝试了两种不同的计算方法(严谨定义参考原文[4]公式):
Optical flow stacking:像素点在两个相邻帧之间的位移向量,分为x轴和y轴两个方向上的数值 。L组相邻帧构成2L帧光流数据,按照xyxy间隔排列输入 。Trajectory stacking:找到某一像素点的运动轨迹,将同一轨迹中位移向量堆叠 。
人工智能探索2浅谈人类视觉系统的物体识别

文章插图
Figure from Ref[4]
在视频数据集UCF-101上分别评估Spatial ConvNet和Temporal ConvNet,经过ImageNet ILSVRC-2012数据集预训练的Spatial ConvNet明显好于直接用UCF-101视频数据集训练的情况(下图a) 。由于视频数据集远远少于图像数据集,双通路卷积网络的Spatial ConvNet使用预训练的CNN比其他用视频数据集训练的Video CNN更有优势 。
对于Temporal ConvNet , 采用不同计算光流的方法用UCF-101视频数据集训练,使用dropout ratio=0.9 。实验结果显示(下图b),Optical flow stacking略好于Trajectory stacking计算方法;L=10的情况下提供了更长期运动信息,略好于L=5、1的情况;Temporal ConvNet明显优于Spatial ConvNet,这证实了运动信息对于视频中物体识别的重要性 。
人工智能探索2浅谈人类视觉系统的物体识别

文章插图
Figure from Ref[4]
文章最后合并Spatial和Temporal ConvNet的softmax scores,用线性支持向量机(Linear SVM)计算双通路网络的最后一步 。由于AlexNet是针对图像物体识别的网络 , 采用AlexNet构建的双通路卷积网络未针对视频物体识别修改网络 。双通路卷积网络使用更小的视频训练数据集,和针对视频物体识别设计的最好的深度模型结果相当 。
人工智能探索2浅谈人类视觉系统的物体识别

文章插图
Figure from Ref[4]
总结
人类视觉系统是经过数亿年进化形成的复杂感知系统,由于继承了人类之前整个进化分支上累积的成果 , 人类视觉可以应对纷繁复杂的环境,而且精准、高效、可调控 。人工智能算法在感知领域长期借鉴人类视觉系统的设计 , 从感知器到深度神经网络,本文介绍的双通路卷积网络不过是众多成功案例之一 。笔者相信,在设计AI算法遇到困难的时候,参考生命系统智能的机理,依然是想法最好的来源 。随着认知科学和脑机交互工程的进展,更多关于生物智能的发现将继续推进人类对AGI的探索 。
参考文献:
[1] 阅读原文:人工智能探索——浅谈人类视觉系统的物体识别. 07-10-2019.
【人工智能探索2浅谈人类视觉系统的物体识别】[2] Norbert Kruger, Peter Janssen, Sinan Kalkan, Markus Lappe, Ales Leonardis, Justus Piater, Antonio J. Rodríguez-Sánchez and Laurenz Wiskott. Deep Hierarchies in the Primate Visual Cortex: What Can We Learn for Computer Vision? IEEE Trans Pattern Anal Mach Intell. 2013 Aug;35(8):1847-71. doi: 10.1109/TPAMI.2012.272.
[3] Sharon Gilaie-Dotan. Visual motion serves but is not under the purview of the dorsal pathway. Neuropsychologia. 2016 Aug;89:378-392. doi: 10.1016/j.neuropsychologia.2016.07.018. Epub 2016 Jul 18.