[學習筆記] 視覺與大腦 - 視覺運作機制的各種可能性 (Alternative Conceptions of Vision)

本文探討各種可能的視覺運作機制、其論點及問題點,並提出目前看起來最合理的推測。

各種可能的視覺運作機制


1. Feature detection - 目前大多數的視覺科學家認為這是最有可能的視覺運作機制

2. Vision as inference - 視覺是由推論而產生的

3. Vision as efficient coding - 視覺來自於有效率的資訊編碼

4. Vision as a way of contending with the inverse problem - 視覺是為了解決 inverse problem

Vision as Feature Detection



作者 Hubel 及 Wiesel 在 1981 年因為對於視覺的研究獲得 Nobel Prize.


基本的想法是藉由動物實驗 (舉例來說, 麻醉貓, 此時貓的大腦仍然能夠對接收到的影像產生反應, 因此可以設計實驗觀察貓的大腦的神經元對於影像的反應), 如果能夠 identify 各個神經元的行為, 以及神經元彼此連接的方式, 就能夠瞭解 visual system 的運作, 以及 perception 產生的方式.

主要的發現:

1. receptive field - 不同的神經元對於視覺空間上不同位置的刺激會有所反應.

2. receptive field properties - 不同的神經元對不同的刺激 (舉例來說線條的 orientation, luminance, color, motion, direction of motion...等 image features) 會有所反應. 以上圖 (B) 為例, 該 cell 對於垂直線條反應最強烈.

主要的問題:

1. 沒有說明 visual perception 是什麼 (雖然書名有 visual perception, 但內容幾乎沒有提到什麼是 visual perception). 可能的原因是, 作者假設一旦知道了神經元的特性, receptive fields properties, 自然會知道 perception 是什麼.

2. Image features do not measure objects in the world. 如下圖所示, 不同 orientation 的線條, 投射到視網膜, 看起來都一樣, 如果視覺只和對於視網膜上的影像的 feature detection 有關, 我們如何能夠分別它們的不同?


Vision as Inference



Hermann von Helmholtz (1821-1894) 認為視網膜接收到的影像是品質較差的 (crummy), 人們藉由經驗的累積, 在視網膜接收到影像之後, 改善視覺的品質, 他稱之為 unconscious inferences drawn from experience.


Thomas Bayes (1701-1761) 提出了 Bayer's Theorem, 可以計算已知 B 發生時, A 可能發生的機率.

p(A given B) = p(B given A) * p(A)

In vision, A is an image (stimulus), and B is the underlying state of the physical world.

為什麼 Bayer's Theorem 對於瞭解視覺運作的機制沒有幫助?

如下圖所示, the conflation of features in retinal images precludes biological sensors from apprehending states of the world. Thus the 'B' term in Bayer's theorem is not available.


Vision as Efficient Coding



Claude Shannon (1916-2001) 在 Bell Labs 工作的時候 (1940s - 1950s) 發明了 information theory, 決定了通訊過程中, 訊息的最佳化壓縮.


如上圖所示, 根據實驗及量測, 我們知道, 在神經系統中, 訊息的傳遞類似數位訊號, 而真實世界的資訊量相當龐大, 因此可合理推測我們的神經系統, 會以編碼的方式來傳遞訊息, 如此有助於大幅壓縮訊息量到神經系統能夠處理的數量級.


Horace Barlow (1921-) 運用 information theory 的概念來 reduce redundancy in images. 如下圖所示, 真實世界投影到視網膜的影像充滿了過多的資訊.


物理世界的資訊的確太多, 需要 efficient coding, 這一點是合理的.

問題在於, 資訊傳輸的機制不同於視覺的機制.

有效率的資訊傳輸 (例如透過電話線路以編碼的方式傳遞資訊) 和訊息本身, 是兩回事.

Vision as a Way of Contending with the Inverse Problem


Size, distance and orientation



不同大小、不同距離、不同方位的線段,投影到視網膜後,卻都成為相同的線段,如此,我們要如何逆推得知真實世界的情況?

Lightness and color



光子從光源出發後,打到物體,反射後,通過介質,最後抵達視網膜,視網膜只接收到最後的結果,我們如何逆推光子 travel 的過程而了知真實世界的樣貌?

Motion



不同大小、不同距離、不同方位的線段,投影到視網膜後,卻都成為相同的線段,如此,我們要如何逆推得知真實世界物體運動的方向及速度?

The idea in this empirical conception of vision is that evolving a way of dealing with inverse problem has determined both how we see and what we see.

The peculiar way we see the world is the signature of this strategy of vision.

要點總結


視覺演化的挑戰在於設法克服 inverse problem.

任何關於 vision 的理論都必須把 inverse problem 納入考慮.

視覺運作機制的各種可能性:

1. feature detection

2. vision by inference

3. vision as efficient coding

4. vision based specifically on a way of dealing with the inverse problem.

對於最後一種可能性, 持續能夠在真實世界中成功地運作的目標, 取代了比直覺上看見真實的世界的目標 (the goal of reproductive success substitutes for the intuitive goal of seeing the world the way it "really is"), 視覺感受之所以和真實的世界有所差異 (以下圖為例, 兩個圓形的亮度相同, 但看起來左邊的圓形比較亮), 正是因為我們為了克服 inverse problem, 所導致的.


延伸閱讀


[Coursera] Organization of the Human Visual System - Alternative Conceptions of Vision, by Dr. Dale Purves, M.D, Duke University.

[學習筆記] 視覺與大腦 - 人眼視覺所見到的亮暗,本質為何? (Seeing Lightness and Darkness)

[學習筆記] 視覺與大腦 - 人眼視覺所見到的色彩,本質為何? (Seeing Color)

[學習筆記] 視覺與大腦 - 人眼視覺見到的幾何形狀,和真實世界有何差異? (Seeing Geometry)

[學習筆記] 視覺與大腦 - 人眼視覺見到距離及深度的方式 (Seeing Distance and Depth)

[學習筆記] 視覺與大腦 - 人眼視覺見到運動的方式 (Seeing Motion)