人类视觉系统为什么形成两条通路,分别处理空间和时域信号?背后的机理是什么?我们相信这是一个经过长期进化形成的高效的视觉系统 。2014年,牛津大学的Andrew Zisserman教授借鉴人类视觉系统的双通路机制 , 设计了双通路卷积网络(Two-stream Convolutional Networks)用于视频中的物体识别[4] 。该模型分为空间通路(Spatial stream,SS)和时域通路(Temporal stream,TS),SS采用AlexNet,并预先在ImageNet数据库训练[10] 。
文章插图
Figure from Ref[4]
TS采用未经训练的AlexNet , 输入数据为视频帧与帧间的光流信息(Optical Flow Displacement Field) 。文章尝试了两种不同的计算方法(严谨定义参考原文[4]公式):
Optical flow stacking:像素点在两个相邻帧之间的位移向量,分为x轴和y轴两个方向上的数值 。L组相邻帧构成2L帧光流数据,按照xyxy间隔排列输入 。Trajectory stacking:找到某一像素点的运动轨迹,将同一轨迹中位移向量堆叠 。
文章插图
Figure from Ref[4]
在视频数据集UCF-101上分别评估Spatial ConvNet和Temporal ConvNet,经过ImageNet ILSVRC-2012数据集预训练的Spatial ConvNet明显好于直接用UCF-101视频数据集训练的情况(下图a) 。由于视频数据集远远少于图像数据集,双通路卷积网络的Spatial ConvNet使用预训练的CNN比其他用视频数据集训练的Video CNN更有优势 。
对于Temporal ConvNet , 采用不同计算光流的方法用UCF-101视频数据集训练,使用dropout ratio=0.9 。实验结果显示(下图b),Optical flow stacking略好于Trajectory stacking计算方法;L=10的情况下提供了更长期运动信息,略好于L=5、1的情况;Temporal ConvNet明显优于Spatial ConvNet,这证实了运动信息对于视频中物体识别的重要性 。
文章插图
Figure from Ref[4]
文章最后合并Spatial和Temporal ConvNet的softmax scores,用线性支持向量机(Linear SVM)计算双通路网络的最后一步 。由于AlexNet是针对图像物体识别的网络 , 采用AlexNet构建的双通路卷积网络未针对视频物体识别修改网络 。双通路卷积网络使用更小的视频训练数据集,和针对视频物体识别设计的最好的深度模型结果相当 。
文章插图
Figure from Ref[4]
总结
人类视觉系统是经过数亿年进化形成的复杂感知系统,由于继承了人类之前整个进化分支上累积的成果 , 人类视觉可以应对纷繁复杂的环境,而且精准、高效、可调控 。人工智能算法在感知领域长期借鉴人类视觉系统的设计 , 从感知器到深度神经网络,本文介绍的双通路卷积网络不过是众多成功案例之一 。笔者相信,在设计AI算法遇到困难的时候,参考生命系统智能的机理,依然是想法最好的来源 。随着认知科学和脑机交互工程的进展,更多关于生物智能的发现将继续推进人类对AGI的探索 。
参考文献:
[1] 阅读原文:人工智能探索——浅谈人类视觉系统的物体识别. 07-10-2019.
【人工智能探索2浅谈人类视觉系统的物体识别】[2] Norbert Kruger, Peter Janssen, Sinan Kalkan, Markus Lappe, Ales Leonardis, Justus Piater, Antonio J. Rodríguez-Sánchez and Laurenz Wiskott. Deep Hierarchies in the Primate Visual Cortex: What Can We Learn for Computer Vision? IEEE Trans Pattern Anal Mach Intell. 2013 Aug;35(8):1847-71. doi: 10.1109/TPAMI.2012.272.
[3] Sharon Gilaie-Dotan. Visual motion serves but is not under the purview of the dorsal pathway. Neuropsychologia. 2016 Aug;89:378-392. doi: 10.1016/j.neuropsychologia.2016.07.018. Epub 2016 Jul 18.
- 世界第八大奇迹的兵马俑仅是它的冰山一角浅谈秦陵究竟有多奢侈
- 工作世界的探索从哪几个方面进行,探索工作
- 新探索四怎么样才能算是一个真正的魔王他会毁灭这个世界
- 探索UFO目击者心理鉴定报告
- 世界上真的有ufo吗?飞碟ufo事件探索
- 图 飞碟飞碟满天飞
- 人工智能音箱哪个好 智能音箱应用了人工智能吗
- 猎狗的故事 猎狗的故事浅谈人力资源管理
- 黄山云海是著名的旅游景观请你为黄山云海写一句简短的旅游宣传语 江南百景图徽州府探险黄山云海探索飞来石的秘密
- 人工智能软件 人工智能软件app