根據神經科學的研究, 如下圖所示,影像 (images)進入大腦後,首先會被解析 (parse) 為一個又一個的區塊 (regions),然後進一步整合 (integrate) 為有意義的物件 (objects)。
如下圖所示,根據實驗,剛開始能見到事物時,見到的是左邊的世界。幾個月後開始能見到右邊的世界。
進一步的實驗發現,剛開始能見到事物時,如果沒有讓形狀移動,見到的是上圖左邊的情況,受測者會指出有三個 object。
如果讓形狀移動,則立刻就能見到右邊的情況,受測者會指出有兩個 object,一個是圓形,一個是方形。
The one thing the visual system needs in order to begin parsing the world is dynamic information.
根據一連串的實驗發現,visual processing 的基礎是 dynamic information processing or motion processing.
人類影像辨識的過程:
dynamic information processing or motion processing → visual processing → visual integration → recognition
根據這樣的發現,Pawan Sinha 在 MIT 開發了一套系統名叫 Dylan,目標是餵給她影像,讓她辨識出物件。
結果餵給 Dylan 6-7 分鐘的 videos (傳統的作法是餵給電腦靜態的圖片,讓電腦學習辨識物件),Dylan 就已經能夠辨識一些型態 (patterns),包含人臉。
[TED Talk] How brains learn to see (大腦如何學會「看」), by Pawan Sinha