想像一下,如果彼得潘沒遇到為他縫上影子的溫蒂,他的影子成功逃離他的掌控,並在那之後展開了獨立的人生,在世界各地冒險,甚至跨足演藝圈,客串了迪士尼的動畫。
這時,彼得潘能向擁有「地表最強法務」的迪士尼索取授權費嗎?
這個案例,與身處社群網路世代的我們息息相關,這也正是我們面臨的隱私困局:當演算法拿走你的「數位影子」(社群貼文、照片與足跡),並用它創造出另一個更受歡迎、更會賺錢的「數位分身」時,那個影子還屬於你嗎?
受制於目前的技術門檻與軟硬體限制,這個案例暫時還沒出現在你我生活周遭。但近年來影視行業中,卻已經出現了一批又一批「受害者」。要聊這個「分身」爭議,我們必須先從目前影視行業的「數字替身」開始說起。
數字替身是什麼?
數字替身(Digi Double)是指利用掃描或圖像重建一個和真人演員一模一樣的數字形象,經常應用在影視特效。它的出現,主要是想幫我們解決這些問題:
超級英雄(人類做不到,或只能做一次的動作)
首先,影視作品裡有越來越多演員做不到的動作。早期可以透過找身形相似的替身演員協助完成拍攝,但近年來需要的動作越來越難、也越來越危險。在人權意識逐漸普及的今天,我們總不可能每拍一場跳飛機的戲,就讓一位替身演員真的跳下去,畢竟這些一輩子只能做一次的動作,做完不死也半條命,實在太費替身演員了。
返老還童、起死回生(De-aging)
我們總希望喜歡的演員可以一直演下去,但現實世界的時間,與影視作品世界的時間卻不一定同步。比方說,如果三十年前有一部《名偵探柯南》真人版,那麼三十年後想拍新的集數,當年飾演柯南的小演員,已經可以稱呼毛利小五郎為「毛利老弟」了。這時如果不想換演員,就需要De-aging的數字替身來輔助,讓演員可以驅動年輕化的數字自己。
多重影分身(群集)
你是否曾為多人張羅過出去旅遊的食宿呢?想像一下,當這個人數來到一千人,你作為劇組統籌一天要訂幾份便當、幾間房?如果又聽到導演說,「今天這場戰爭戲,我需要十萬人衝鋒!」看著手上越來越吃緊的預算,你應該會效仿諸葛村夫,叫導演一個人,兵分十萬路,自己把這場戲拍了。若拍攝前,就已經對群眾演員進行掃描、3D重建,那麼只要多複製幾組,再隨機改一下衣服的顏色、形式,數字十萬大軍隨時為你所用。
數字替身的技術方案有哪些?
我們常見的影視作品,本質上都是平面的連續圖像,作品裡的角色,沒辦法像貞子一樣,能從電視爬出來。即使是「3D電影」,它也是利用兩段速度同步,但角度略有差異的平面影像,來欺騙你的大腦,讓你以為看到的畫面能跳脫平面。
不過在製作視覺特效時,我們確實會建構出一個虛擬的三維空間出來。因為平面圖像有個致命的缺陷,那就是沒有物理上的「深度」。沒有「深度」,就表示我們沒辦法確定畫面裡物件的遠近關係。
你可能會質疑,「不對呀,我平常看平面的畫、照片或是影視作品,也能分辨誰在前、誰在後,為什麼會說沒有遠近呢?」我們之所以能在平面圖像上產生遠近的「錯覺」,其實是源於「透視」。我們的大腦,會自動把畫面中的消失點、近大遠小的物件規律,轉換成物理上的遠近關係。但這個錯覺相當脆弱,只要視線稍微偏移,遠近關係就會錯亂,我們便分辨不出物件的相對位置。如果這時有人問你偉大的航道在哪裡,無法分清遠近的你,將成為在各大IP中不斷迷失的羅羅亞索隆。
為了得到與深度相關的資訊,我們在製作視覺特效時,會把劇組拍攝的影像,轉換成一個透視相同的三維空間。在這個空間裡,會有參數設定相同的相機、和實拍光源一樣的數位燈光,以及等比例的場景、角色等。我們只要利用這台相機,在這個空間裡拍照,就會得到一張和劇組拍攝影像完全一致的平面圖像。這個在虛擬三維空間拍照到成像的過程,我們稱為算圖(Rendering)。
3D方案:三維模型(3D重建)
第一種數字替身的方案,就是想辦法在特效師電腦中的三維空間,重建一個與演員一模一樣的數字形象。如何界定「一模一樣」呢?首先,要有一樣的輪廓,五官位置、肢體比例要與演員一致。接著,要有一樣的色彩,不論是膚色、唇色、瞳色、髮色等,都要完美復刻。最後,要有一樣的表演節奏,怎麼笑、怎麼說話,必須和演員如出一轍。
要怎麼取得演員的輪廓和色彩?簡單來說,就是照相。不過不是只拍一張,是繞著演員全方位無死角地拍一堆照片,把他們的各個死亡角度捕捉下來做成迷因。但這麼做會有一個問題,在等待照片拍完的過程當中,即使演員非常敬業地保持靜止不動,但人類本能的呼吸、眨眼,甚至只是輕微的重心偏移,都會在極高解析度的鏡頭下產生微小位移。這些細微的躁動,都會導致最終合成的數據出現誤差。
這個問題的解法,非常簡單暴力。好比一個便當不夠吃,那就吃兩個;一台相機拍不到的瞬間,就用幾十台相機同時拍。而這種多角度拍攝、拼接,並計算成三維模型的技術,就是「3D 重建」(3D Reconstruction)。
然而,3D重建得到的數字替身,和當初拍攝的照片一樣,定格在按下快門的那個狀態。如果想讓它動起來怎麼辦?要百分之百的還原演員的表演節奏,你可以嘗試動態捕捉(Motion Capture)與面部捕捉(Facial Capture)。請演員穿上帶特定標記點與感測器的動捕服,以及可以捕捉表情的面捕設備,先讓演員演一遍。接著再把這些資訊,想辦法傳遞到三維空間的角色上。
當數字替身動起來後,我們只需要設置好和實拍相機、燈光一樣的參數,進行「算圖」,就可以得到一張張數字替身的圖像。接著把這些圖,拼貼到最原始的實拍畫面中,蓋住演員真正的臉或身體,那便大功告成了。
看到這裡,你一定會想,「這個方案怎麼步驟看起來那麼繁瑣,我看還是直接讓演員來演吧。」飛機該跳就跳,跳完只要說聲「我們懷念他」就好。這個念頭不只你知道、我知道,對面獨眼龍也知道,於是影視行業便發展出另一個思路完全不同的技術方案。
2D方案:換臉(像素生成)
既然影視作品的最終呈現是「平面的連續圖像」,那麼數字替身是否也直接在平面上解決就好?與其在三維空間苦苦掙扎,不如讓 2D 的問題回歸 2D。於是,基於「像素生成」的2D換臉方案便應運而生。
這個流派近年最著名的方案,便是基於機器學習的深度偽造(Deepfake)。Deepfake的核心是一個叫做「生成對抗網路」(GAN)的演算法。你可以想像電腦裡有兩個AI,一個AI拼命生成演員的照片,另一個AI拼命找碴,找出照片哪裡不像。當這個生成、找碴,再生成、再找碴的過程,持續了數萬次,最終生成的照片就能以假亂真。這個方案的出現,大大改變了影視行業。因為我們不再需要理解人體結構與真實物理世界。只要心,還有成千上萬張照片和算力,人人都能生成「特定角度」下極度真實的臉。
但問題就出在這個「特定角度」。Deepfake本質上還是在對平面影像動手腳,所以前面提到的「透視改變」問題也是它最大的硬傷。只要相機或演員運動幅度大一點,生成出來的結果便差強人意了。
2.5D方案:換臉(像素生成)與三維模型(3D重建)輔助
一個方案雖然有空間關係,但需要的步驟繁瑣、人力眾多;另一個方案雖然製作門檻低,但只要透視改變就什麼也做不了。怎麼辦呢?既然兩個方案各有優勢,特效師們腦筋也動得很快:「爭什麼爭,摻在一起做成撒尿牛丸呀!」
目前影視行業最常見的解決方案,就是利用三維重建的演員模型與相機當作基底,保證透視正確,再把Deepfake生成的像素級結果,貼到三維模型上。如此一來,數字替身便能自由自在地在畫面中跑跳,又能擁有以假亂真的結果。
給貓的總結
不管是哪個方案,想製作貓的數字替身,我們都需要先拍照。
來,站好,不要動!好啦,先不要蹭我!等等......
唉,真拿你們沒辦法。

















