由於做的研究大概和「視覺研究」沾得上一點邊,雖然並不是做知覺心理學(perception psychology)裡面的vision,而是computer vision,但日本視覺學會現在也把電腦視覺納入視覺研究的範疇之一了。於是經過教授的推薦,就去報名了日本視覺學會的2023年冬季大會,也順利得到了口頭發表的機會。
研討會的流程及概況
這次的日本視覺學會辦在位於東京的工學院大學新宿校區,這所大學是由一棟非常高的建築構成,建築最高到28樓,而學會辦在第三樓,有個大演講廳。
現在進入後疫情時代,蠻多研討會都已經開始採用線上線下兩邊同時進行的模式,所以如果帶自己的電腦的話,得先用自己的電腦連上研討會的Zoom會議室,再使用Zoom分享簡報。而演講廳裡面的畫面也直接變成是zoom的視窗。而zoom的收音則統一使用演講廳裡的麥克風收音,如此一來,就完成了線上線下同步的研討會了。
下午一點開始第一個section,而我第二個演講,所以早早到了現場,前面都還沒有坐人
我發現教授級的人物大約都會坐在前面的搖滾區,而他們也經常針對演講進行提問,面對學生的發表,我覺得蠻多老師們的提問就像是在指導學生一樣,雖然是問問題,但也像是給學生提點,想告訴學生還有哪些點可能是沒有想到過的。因此參加研討會也相當重要,可以得到很多意見,也能了解自己的研究對於他人而言,哪些地方是特別有趣的。
基本上大家的穿著大概都是走business casual 路線,不過一些教授平常就已經穿西裝打領帶,所以現場仍然可以見到穿西裝打領帶的人。而有發表及沒有發表也影響穿著,如果要發表的那天,穿著正式一點也顯得比較有精神。
藉著研討會的機會,也吃了很多零食,平常在超市怕踩雷的零食,就在研討會試吃看看吧哈哈
機器學習、深度學習以及心理學有關的研究
這幾年機器學習、深度學習的應用越來越多,也讓心理學的研究多了一個研究方法可以進行。在視覺學會當中,除了心理物理學的行為實驗之外,EEG、ERP、fMRI等brain study也包含在內,另外還有一些結合機器學習或深度學習model來做視覺相關的分析。
描述物品不只是「標籤(label)」它,而是有很多「面向(dimension)」
其中兩場機器學習有關的keynote speech我非常喜歡,一場是Martin Hebart老師的演講,包含Hebart老師使用投影片的方式,從日常生活中的經驗開始循序漸進的導引到他的研究課題,清晰的英文口條也讓人很容易進入演講的脈絡之中。
「一杯翻倒的咖啡」的圖片裡,我們看到的不只是咖啡;「一顆爛掉的蘋果」,不只有蘋果;「一座遙遠的山」因為是富士山而有了不同的意義。而Hebart老師的研究就是關注於這些物質背後的意義,是否應該給予物品(object)更多可以描述他的「dimension」,而不是只是給予物品一個「label」。
進入到Hebart老師提供的想法之後,也很容易追得上老師接下來談到的研究內容,他們主要出了一個名為THINGS的大資料庫集,收集了用美式英文所能描述的好幾千種物品,而且盡量平均涵蓋各式各樣的物品,而不要只偏重於某個種類(比方說不要放太多狗的圖片等等)。
而他們在2020年發表的一個poster裡面,也報告了他們藉由這個資料庫找到了用來描述物品的dimension,抓出了36個主要面向,比方說「金屬的」、「球狀的」、「有黏性的」等等。而有了這些面向,如果再跟brain study結合的話,可以重複驗證腦科學研究的一些現有成果,比如說對臉有較強反應的FFA之類的,對靜態景物有較強反應的腦區等等,就能搭配這些資料庫的dimension來得到強烈的相關驗證。
而THINGS資料庫的論文、和網站大部分都能看到成果,Hebart老師真的是一位非常會進行統合與統整的學者。
參考:
1.論文:Hebart MN, Dickter AH, Kidder A, Kwok WY, Corriveau A, et al. (2019) THINGS: A database of 1,854 object concepts and more than 26,000 naturalistic object images. PLOS ONE 14(10): e0223792.
https://doi.org/10.1371/journal.pone.0223792
2.網站:https://things-initiative.org/
生成模型的潛在層就像人類的腦構造嗎?
我也很喜歡Bei Xiao老師的演講,老師講的概念比Hebart老師的概念再更細一些,但在演講當中,Xiao老師很仔細的說明了單一個主要研究,再加上老師清晰的英文,所以也能很清楚的跟到老師所報告的內容。而Xiao老師具有一些腦神經科學背景,把GAN model所取出來的一些結果,和腦神經處理的層次放在一起對照,也給人很多科學性的啟發。
老師主要介紹了用StyleGAN來訓練的一個肥皂圖片的圖庫,肥皂可以有各種不同的顏色,而且也可以展現出透明感的質地,而他們使用生成模型(Generative Adversarial Networks, GAN),用以生成許多不同顏色和質地的肥皂。而肥皂以完整的幾何形狀為主(方形皂或橢圓形皂)。通常做GAN,都會很想知道在latent layer,也就是在潛在變數那一層發生了什麼事情。而Xiao老師他們的研究中,做了一個有三層的latent layer(前、中、後),有趣的是,前layer反應了肥皂的顏色、中layer反應顏色和質地,後layer反應了質地。
也就是說,在圖片編碼拆解到重新生成的這個過程裡,GAN模型也做出了某種有規律的學習。而這個學習,可能和人類的visual perception有類同之處,即顏色和形狀最為顯著 (例如V1可處理的),然後才再進行透明度等質地的感知。
參考:
Chenxi Liao, Masataka Sawayama, Bei Xiao; A Perceptual Evaluation of the StyleGAN2-ADA Generated Images of Translucent Objects.
Journal of Vision 2022;22(14):3642. doi:
https://doi.org/10.1167/jov.22.14.3642.
參加研討會的心得
因為疫情的關係,很久沒有參加實體的研討會,雖然keynote speech還是在線上進行,眾人一起在現場觀看大螢幕聽演講,但是其他口頭發表以及海報都是在現場面對面進行,還是得到了很多與人交流的機會。
其實每天都在自己的實驗室裡或是大學裡面,確實也會讓自己的想法慢慢地被侷限住,忘記這個世界還有其他大學跟實驗室在做著各式各樣的研究。雖然參加研討會需要舟車勞頓,逛海報發表的時候有點人擠人而且還要站著聽講,但是有一些體力的勞累,也是能讓人更有一些做研究的痛感。
而且和實驗室的人一起參加研討會,也能互相交流、增進感情,另外認識其他實驗室的人,和不同的人說話,也是有意思的地方。
藉著參加研討會的機會,我們實驗室的大家一起在東京吃海底撈火鍋 (仙台沒有海底撈!)
附錄:東京交通
從仙台前往東京的車,我買了JR east pass,這是在日本的外國人都可以使用的交通票券,這個交通票券可以搭乘東京地區的JR電車,而且包含仙台到東京的新幹線,合計2萬日圓,可以使用5天,於是我就購買了這個車票。(仙台到東京新幹線來回學生票約1萬9千日圓)
在網路上預訂之後,帶著護照到JR車站的えきねっと的自動售票機,就可以完成取票的動作囉!(因為是外國人車票,所以要護照) 新幹線和一般區間車(在來線,英文:local train)使用的售票機不同。相當於高鐵和台鐵的概念。
而東京交通雖然複雜,但是只要從自己手上有的票券來思考,就不會那麼困難,例如我擁有JR east pass,所以我決定不搭地下鐵,只搭乘JR電車,由於研討會位於JR新宿車站附近,因此我下榻的飯店也選擇JR新宿車站開始搭電車可以抵達的地方,所以選了JR山手線可以到的JR上野車站附近,而搭乘新幹線也相當方便。
這張圖這樣看可能不可怕,但是上野車站一樓、二樓、三樓都有路可以進去,但是這裡匯集了很多列車種類,所以不同樓層可以搭的車也是不一樣的,而且因為火車在陸地上跑,所以很多地方不相連通,因此別讓自己繞來繞去。(不像台北車站的車都在地底下,只要到一樓就可以解決迷路的問題。)
另外,在東京的車站搭車和找路還有很重要的技巧,那就是不要亂從出口出來,必須要先了解自己要去的地方在車站的東南西北哪一邊,然後從下車廂開始的那一刻起,就要一路去找到正確的改札口,否則上野、新宿、池袋、東京車站等等這些車站的站體本身都相當龐大,如果方向錯誤,只會讓自己一直不停地繞來繞去。
而東京的車站也因為站體龐大的關係,所以車站裡面有很多商店,剪票口也可能會出現兩次,第一次進入之後是有商店區以及可以搭乘電車的剪票口,如果要搭乘新幹線,就要再進入第二個剪票口。而這兩個剪票口之間的距離可以很遠(不像仙台的,很好理解),而搭乘新幹線時,連同乘車券和位子的券要兩張重疊插入剪票機裡面。
此外,由於東京很多火車都是在陸地上跑的,地下鐵才在地底下跑,所以因為有火車鐵軌的關係,也會讓車站的站體結構和地面的結構變得很複雜,因此,有的時候迷路了,走地下街因為有很多指示,也能幫助自己再重新找到該走的路。
進入地下街之前,也會有相關的指示,如果有符合自己要搭的線的才要走下去,不然又要繞來繞去唷!