本文介绍人类视觉系统的主要通路:腹侧通路(Ventral Pathway)负责物体识别和分类,背侧通路(Dorsal Pathway)负责运动识别和控制 。
本文最后对比解读人类视觉双通路和用于视频物体识别的双通路卷积网络(Two-stream Convolutional Networks) 。
在上一篇“人工智能探索——浅谈人类神经网络的复杂性”[1]阅读原文文章中,我们初步介绍了人类视觉系统的主要构成 , 以孔径问题(Aperture Problem)和边缘所有权(Border Ownership)问题为例,介绍了视觉皮层V1、V2和MT(V5)的部分功能 。文章末尾对比了人类视觉系统和深度神经网络构建的计算机视觉模型,提出四点不同 。
文章插图
灵长目视觉系统 Figure from Ref[2]
本文将继续介绍人类视觉系统的其他部分 , 重点讲解腹侧通路(Ventral Pathway,VP)和背侧通路(Dorsal Pathway,DP)两条主要通路 。简单来说 , VP通过感知边缘(Edge)、双目视差(Binocular Disparity)、曲率(Curvature)、颜色、光亮等特征实现物体识别(Object Recognition)[2];DP通过局部运动(Local Motion)、速度梯度(Motion Gradient)、光流(Optical Flow)等信息实现运动识别(Action Recognition)[3] 。受此启发,牛津大学(University of Oxford)的Andrew Zisserman教授设计了双通路卷积网络(Two-stream Convolutional Networks)用于视频中的物体识别[4],在本文最后我们将给予解读 。
视觉皮层功能和等级性
在人类视觉系统的众多特点中,高度的等级性(Hierarchy)是最主要的一点[2] 。这种等级性不光停留在神经元细胞分层上,更体现在以下多个方面:一、不同功能层具有不同的细胞类型 , 而非同一种神经元细胞简单的多层重复;二、神经元细胞层间有较明确的界限,比如外侧膝状体核(Lateral Geniculate Nucleus , LGN)具有六层神经元细胞;三、视觉信号从低层向高层映射,对应的神经元细胞感受野逐层增大;四、不同层次处理的视觉信号由简单到复杂、由局部到整体 , 具有可解释性;五、层内信号传播速率比跨层传播高一个数量级[5],所以在时域上依然保留了信号先后到达的等级性 。
人类视网膜(Retina)上的光感受器(Photoreceptor)主要有两种,视锥细胞(Cone Cell)和视杆细胞(Rod Cell) 。同样位于视网膜上的神经节细胞(Ganglion Cell)收集光感受器的光强和颜色信号,经过视交叉(Optic Chiasm)传递给外侧膝状体核LGN 。LGN左侧的皮层收集来自于双眼的右侧视野信号,LGN右侧的皮层收集双眼左侧视野信号 。LGN对颜色变化和时域变化进行初步加工,为边缘检测(Edge Detection)和运动检测(Motion Detection)做准备 。另外,双眼的信号在LGN依然是分离的,未对双目视差进行处理 。
文章插图
V1信号 Figure from Ref[2]
初级视觉皮层V1的功能包括识别边缘(Edge)、短线条(Bar)和线条终点(Interest Point) 。V1还对双目视差做计算,获得初步的景深信息 。小部分V1神经元对于特定方向的运动响应,这些信息最终映射到中颞叶(Middle Temporal lobe,MT , 或V5),这一点在上一篇文章[1]孔径问题有介绍 。V1神经元还能识别亮点和背景之间的颜色差别 。
文章插图
V2信号 Figure from Ref[2]
V2层神经元可以识别材质变化和边缘信息 。V2还处理相对视差(Relative Disparity) , 和V3层一起提供更多立体的信息 。V2和V3还能识别一定的全局运动信息(Global Motion)[6],以前普遍认为MT直接接受来自V1的局部运动信息,最新研究结果发现MT还通过V2、V3间接接受来自V1的运动信息 。
- 世界第八大奇迹的兵马俑仅是它的冰山一角浅谈秦陵究竟有多奢侈
- 工作世界的探索从哪几个方面进行,探索工作
- 新探索四怎么样才能算是一个真正的魔王他会毁灭这个世界
- 探索UFO目击者心理鉴定报告
- 世界上真的有ufo吗?飞碟ufo事件探索
- 图 飞碟飞碟满天飞
- 人工智能音箱哪个好 智能音箱应用了人工智能吗
- 猎狗的故事 猎狗的故事浅谈人力资源管理
- 黄山云海是著名的旅游景观请你为黄山云海写一句简短的旅游宣传语 江南百景图徽州府探险黄山云海探索飞来石的秘密
- 人工智能软件 人工智能软件app