日本視覺學會2023年冬季大會參加筆記─機器學習和視覺研究的趨勢課題

更新於 2025/01/20發佈於 2023/01/21閱讀時間約 10 分鐘

由於做的研究大概和「視覺研究」沾得上一點邊，雖然並不是做知覺心理學(perception psychology)裡面的vision，而是computer vision，但日本視覺學會現在也把電腦視覺納入視覺研究的範疇之一了。於是經過教授的推薦，就去報名了日本視覺學會的2023年冬季大會，也順利得到了口頭發表的機會。

研討會的流程及概況

這次的日本視覺學會辦在位於東京的工學院大學新宿校區，這所大學是由一棟非常高的建築構成，建築最高到28樓，而學會辦在第三樓，有個大演講廳。

現在進入後疫情時代，蠻多研討會都已經開始採用線上線下兩邊同時進行的模式，所以如果帶自己的電腦的話，得先用自己的電腦連上研討會的Zoom會議室，再使用Zoom分享簡報。而演講廳裡面的畫面也直接變成是zoom的視窗。而zoom的收音則統一使用演講廳裡的麥克風收音，如此一來，就完成了線上線下同步的研討會了。

我發現教授級的人物大約都會坐在前面的搖滾區，而他們也經常針對演講進行提問，面對學生的發表，我覺得蠻多老師們的提問就像是在指導學生一樣，雖然是問問題，但也像是給學生提點，想告訴學生還有哪些點可能是沒有想到過的。因此參加研討會也相當重要，可以得到很多意見，也能了解自己的研究對於他人而言，哪些地方是特別有趣的。

基本上大家的穿著大概都是走business casual 路線，不過一些教授平常就已經穿西裝打領帶，所以現場仍然可以見到穿西裝打領帶的人。而有發表及沒有發表也影響穿著，如果要發表的那天，穿著正式一點也顯得比較有精神。

機器學習、深度學習以及心理學有關的研究

這幾年機器學習、深度學習的應用越來越多，也讓心理學的研究多了一個研究方法可以進行。在視覺學會當中，除了心理物理學的行為實驗之外，EEG、ERP、fMRI等brain study也包含在內，另外還有一些結合機器學習或深度學習model來做視覺相關的分析。

描述物品不只是「標籤(label)」它，而是有很多「面向(dimension)」

其中兩場機器學習有關的keynote speech我非常喜歡，一場是Martin Hebart老師的演講，包含Hebart老師使用投影片的方式，從日常生活中的經驗開始循序漸進的導引到他的研究課題，清晰的英文口條也讓人很容易進入演講的脈絡之中。

「一杯翻倒的咖啡」的圖片裡，我們看到的不只是咖啡；「一顆爛掉的蘋果」，不只有蘋果；「一座遙遠的山」因為是富士山而有了不同的意義。而Hebart老師的研究就是關注於這些物質背後的意義，是否應該給予物品(object)更多可以描述他的「dimension」，而不是只是給予物品一個「label」。

進入到Hebart老師提供的想法之後，也很容易追得上老師接下來談到的研究內容，他們主要出了一個名為THINGS的大資料庫集，收集了用美式英文所能描述的好幾千種物品，而且盡量平均涵蓋各式各樣的物品，而不要只偏重於某個種類(比方說不要放太多狗的圖片等等)。

而他們在2020年發表的一個poster裡面，也報告了他們藉由這個資料庫找到了用來描述物品的dimension，抓出了36個主要面向，比方說「金屬的」、「球狀的」、「有黏性的」等等。而有了這些面向，如果再跟brain study結合的話，可以重複驗證腦科學研究的一些現有成果，比如說對臉有較強反應的FFA之類的，對靜態景物有較強反應的腦區等等，就能搭配這些資料庫的dimension來得到強烈的相關驗證。

而THINGS資料庫的論文、和網站大部分都能看到成果，Hebart老師真的是一位非常會進行統合與統整的學者。

參考：
1.論文：Hebart MN, Dickter AH, Kidder A, Kwok WY, Corriveau A, et al. (2019) THINGS: A database of 1,854 object concepts and more than 26,000 naturalistic object images. PLOS ONE 14(10): e0223792. https://doi.org/10.1371/journal.pone.0223792

2.網站：https://things-initiative.org/

生成模型的潛在層就像人類的腦構造嗎？

我也很喜歡Bei Xiao老師的演講，老師講的概念比Hebart老師的概念再更細一些，但在演講當中，Xiao老師很仔細的說明了單一個主要研究，再加上老師清晰的英文，所以也能很清楚的跟到老師所報告的內容。而Xiao老師具有一些腦神經科學背景，把GAN model所取出來的一些結果，和腦神經處理的層次放在一起對照，也給人很多科學性的啟發。

老師主要介紹了用StyleGAN來訓練的一個肥皂圖片的圖庫，肥皂可以有各種不同的顏色，而且也可以展現出透明感的質地，而他們使用生成模型(Generative Adversarial Networks, GAN)，用以生成許多不同顏色和質地的肥皂。而肥皂以完整的幾何形狀為主(方形皂或橢圓形皂)。通常做GAN，都會很想知道在latent layer，也就是在潛在變數那一層發生了什麼事情。而Xiao老師他們的研究中，做了一個有三層的latent layer(前、中、後)，有趣的是，前layer反應了肥皂的顏色、中layer反應顏色和質地，後layer反應了質地。

也就是說，在圖片編碼拆解到重新生成的這個過程裡，GAN模型也做出了某種有規律的學習。而這個學習，可能和人類的visual perception有類同之處，即顏色和形狀最為顯著 (例如V1可處理的)，然後才再進行透明度等質地的感知。

參考：
Chenxi Liao, Masataka Sawayama, Bei Xiao; A Perceptual Evaluation of the StyleGAN2-ADA Generated Images of Translucent Objects. Journal of Vision 2022;22(14):3642. doi: https://doi.org/10.1167/jov.22.14.3642.

參加研討會的心得

因為疫情的關係，很久沒有參加實體的研討會，雖然keynote speech還是在線上進行，眾人一起在現場觀看大螢幕聽演講，但是其他口頭發表以及海報都是在現場面對面進行，還是得到了很多與人交流的機會。

其實每天都在自己的實驗室裡或是大學裡面，確實也會讓自己的想法慢慢地被侷限住，忘記這個世界還有其他大學跟實驗室在做著各式各樣的研究。雖然參加研討會需要舟車勞頓，逛海報發表的時候有點人擠人而且還要站著聽講，但是有一些體力的勞累，也是能讓人更有一些做研究的痛感。

而且和實驗室的人一起參加研討會，也能互相交流、增進感情，另外認識其他實驗室的人，和不同的人說話，也是有意思的地方。

附錄：東京交通

從仙台前往東京的車，我買了JR east pass，這是在日本的外國人都可以使用的交通票券，這個交通票券可以搭乘東京地區的JR電車，而且包含仙台到東京的新幹線，合計2萬日圓，可以使用5天，於是我就購買了這個車票。(仙台到東京新幹線來回學生票約1萬9千日圓)

而東京交通雖然複雜，但是只要從自己手上有的票券來思考，就不會那麼困難，例如我擁有JR east pass，所以我決定不搭地下鐵，只搭乘JR電車，由於研討會位於JR新宿車站附近，因此我下榻的飯店也選擇JR新宿車站開始搭電車可以抵達的地方，所以選了JR山手線可以到的JR上野車站附近，而搭乘新幹線也相當方便。

另外，在東京的車站搭車和找路還有很重要的技巧，那就是不要亂從出口出來，必須要先了解自己要去的地方在車站的東南西北哪一邊，然後從下車廂開始的那一刻起，就要一路去找到正確的改札口，否則上野、新宿、池袋、東京車站等等這些車站的站體本身都相當龐大，如果方向錯誤，只會讓自己一直不停地繞來繞去。

而東京的車站也因為站體龐大的關係，所以車站裡面有很多商店，剪票口也可能會出現兩次，第一次進入之後是有商店區以及可以搭乘電車的剪票口，如果要搭乘新幹線，就要再進入第二個剪票口。而這兩個剪票口之間的距離可以很遠(不像仙台的，很好理解)，而搭乘新幹線時，連同乘車券和位子的券要兩張重疊插入剪票機裡面。

此外，由於東京很多火車都是在陸地上跑的，地下鐵才在地底下跑，所以因為有火車鐵軌的關係，也會讓車站的站體結構和地面的結構變得很複雜，因此，有的時候迷路了，走地下街因為有很多指示，也能幫助自己再重新找到該走的路。

Life Notes | Guan-Yun Wang日本留學記─從文組生到AI博士生博士生經驗談

留言

留言分享你的想法！

Life Notes | Guan-Yun Wang

123會員

152內容數

高中時候夢想成為一位「文人」，至今依舊。雜食性熱愛學習，念過中文系、心理所、資訊所。古有六藝：禮樂射御書數。願以文字為核心，建立我的六藝。這是我的沙龍，包含文學、心理學、AI、資訊工程，還有很多雜七雜八。透過書寫持續成長，讓今天的自己比昨天更好，散發正能量。E-mail: gywang.tp@gmail.com

Life Notes | Guan-Yun Wang的其他內容

2023/12/02

從「予備審査」到「本審査」：博士論文口試的準備之道

終於在11月的最後一個星期考完了「本審查」，也就是論文的最後一次口試。考完「本審查」，基本上就算是幾乎完成了畢業所需的所有要件了。之前寫了一篇文章，整理了自己覺得如果要再讀一次博士班的話，可以改進並且加速畢業的部分。今天這篇文章則是分享在日本準備予備審査和本審査的過程及記錄。祝大家都有個順利的口考

2023/12/02

從「予備審査」到「本審査」：博士論文口試的準備之道

2023/11/18

博士班加速畢業！如果能再讀一次博士班，我會這麼做......

最近指導教授終於鬆口願意讓我考「本審査（ほんしんさ）」，也就是說，終於邁入了即將畢業的最後階段了。念博士班的這幾年，充滿了很多不同的困難，我認為我的博士旅程不算是非常成功的，但也正因為有很多不圓滿之處，希望一些失敗經驗可以幫助想唸博士班或者想去日本留學的勇者們。博士班的畢業條件要開始玩遊

2023/11/18

博士班加速畢業！如果能再讀一次博士班，我會這麼做......

2023/10/14

李琳山教授信號與人生 (2023) - 筆記與心得

做論文做得太多，往往不小心越做越鑽牛角尖，所以最近也盡量多放大自己的視野，往更寬廣的世界去看。查詢各種資料的時候，發現了臺大電機系李琳山教授的《信號與人生》的影片，即使不是電機系畢業的，相信也會獲益良多。 YouTube上面收錄了李老師從2019年到2023年的影片，影片介紹寫說，每次在信號與系統

2023/10/14

李琳山教授信號與人生 (2023) - 筆記與心得

看更多

你可能也想看

偽命名培養體

[筆記] 數位麻痹的心得｜TAxT 2023桃園科技藝術節

「好久沒出門看展了呢」這是我在某日，看到便利商店櫃檯後輪播廣告內容時，心中所產生的想法，對於一個足不出戶的邊緣宅來說，出門看展確實是個難以達成的副本任務，不過湊巧的是，這次展出的主題，確實有吸引到我的興趣。

#數位#便利商店#2023TAxT桃園科技藝術節

2023/10/23

偽命名培養體

[筆記] 數位麻痹的心得｜TAxT 2023桃園科技藝術節

#數位#便利商店#2023TAxT桃園科技藝術節

2023/10/23

蕭詒徽的沙龍

蕭氏人肉演算 ➔ 2023 May. 17

「這個世界好像沒有不文學的東西。」像是哲學家柄谷行人曾提「風景之發現」，文學的存在也似鏡中風景，而這面鏡子所反射出來的東西，其實就是文學性。

2023/06/25

蕭詒徽的沙龍

蕭氏人肉演算 ➔ 2023 May. 17

2023/06/25

陳華夫hwafuchen的沙龍

AI徹底改變大學理工教育的面貌─學習的本質（18）

作者：陳華夫人類學習即是改變腦神經記憶網絡中，軸突末端的突觸之腦波傳導的效能。學習AI的人工神經網絡，一定要用Python程式把抽象的概念轉變為具體的印象，才有利於理解，不致於半途而廢。

#人工神經網絡#腦神經記憶網絡#機器學習

2023/02/13

陳華夫hwafuchen的沙龍

AI徹底改變大學理工教育的面貌─學習的本質（18）

#人工神經網絡#腦神經記憶網絡#機器學習

2023/02/13

Life Notes | Guan-Yun Wang

日本視覺學會2023年冬季大會參加筆記─機器學習和視覺研究的趨勢課題

由於做的研究大概和「視覺研究」沾得上一點邊，雖然是computer vision，但日本視覺學會現在也把電腦視覺納入視覺研究的範疇之一了。於是經過教授的推薦，就去報名了日本視覺學會的2023年冬季大會，也順利得到了口頭發表的機會。這次的學會辦在東京的工學院大學，位於日本新宿，這次學到了很多機器學習相

#研討會#日本留學#東京

2023/01/21

Life Notes | Guan-Yun Wang

日本視覺學會2023年冬季大會參加筆記─機器學習和視覺研究的趨勢課題

#研討會#日本留學#東京

2023/01/21

半透明偏光鏡的沙龍

研究所鬼故事(學術交流篇) Day 7~8

「今天你們跟我學生整天都要在會議室學術交流，順便幫我們買幾顆硬碟。」早上學姊的一通電話，驚醒了原本打算睡個飽的我們。「新硬碟？她們實驗室也要開始做大數據AI喔？」大家心照不宣地想著。

#研究所#碩士班#隨筆

2022/07/03

半透明偏光鏡的沙龍

研究所鬼故事(學術交流篇) Day 7~8

#研究所#碩士班#隨筆

2022/07/03

生物醫學哲學慢慢看的沙龍

今年最後一個研討會在高醫

2020進入最後一個月，昨天（12/5）由高學醫學大學，跨醫學院、護理學院以及醫學教育及人本化教育研究中心，共同籌辦「在數位醫療中找回『人』：健康照護、科技及教育的反思」國際研討會，邀請美國約翰霍普金斯大學醫學史系葛林（J. Greene）教授、衛生福利部國民健康署王英偉署長、國立陽明大學科技與社會

2020/12/06