聲音科技可以說是眾多科技中常被忽略的一員,但其實有眾多應用就在我們身邊。In-phase Audio 的成立就是希望和大家分享最新的聲音科技。在增加大家對這方面技術的了解同時,可以擴闊大家對未來的想像。本文會概括地講一下一些流行的聲音科技應用。
目前最熱門的研究: 3D音效在VR和360影片中的應用
"We can’t build the AR product that we want today, so building VR is the path to getting to those AR glasses."
— Mark Zuckerberg
虛擬實境 (VR) 是除機械學習外目前最熱門的科技,世界各地不同的科技公司都大量投放資源在這方面的開發。要讓體驗者真正感覺處生於 VR 世界內,無論虛擬遊戲,抑或 360 影片,自然的聲音絕對不可或缺。最低限度用家在VR世界內聽到的聲音要和現實世界中一樣,可以從四面八方而來。近年見到越來越多人開始討論360相機,甚至不同的VR硬件,討論相關聲音技術的人卻不多。即使如此,眾多科技公司都投放很多資源在 3D 聲音的研究上。Google 推出了
Resonance Audio 軟件包,Facebook 推出了
Facebook 360 混音插件,YouTube 和 Facebook 的 360 影片都已經相繼支援 3D 音效,很多中國科技公司都開始投放資源進行3D音效的研究,遊戲製作軟件 Unity及 Unreal Engine 亦已經加入 3D 音效。可見未來一兩年會是 3D 音效的轉捩點,我們在未來會花大部分時間分享這方面的資訊,除了講解背後的技術,亦會介紹相關產品,甚至一些製作上的討論。
智能助手中的聲音科技
智能助手日漸普遍,現在基本上所有智能電話都會包括智能助手,Android 有 Google Assistant, iOS 有 Siri。在外國智能助手產品就更加普遍,除了最近蘋果開賣的 HomePod,Google 和亞馬遜 (Amazon) 在早幾年已經開始推出相關產品。這些智能助手最主要由兩部份組成: 語音溝通和電腦運算。電腦運算雖然在過去幾年都有飛躍的發展,但真正令到智能助手可以推出市場,是全靠電子語音溝通技術的改善。具體來說,就是如何讓電腦去理解我們的說話,和如何令電腦自然地說話。這兩方面在聲音科技研究上分別稱為語音識別 (Voice Recognition) 和語音合成 (Voice Synthesis)。
聲音識別技術 (Sound Identification / Bioacoustics)
近年很多聲音科技的應用其實得益於機械學習,包括早前提到在智能助手中的語音識別和語音合成。語音識別其實可以歸類為聲音識別技術。除了語音外,聲音識別技術還有很多其他用途,包括識別動物或昆蟲的品種 (Bioacoustics),甚至用作醫學診斷,特別在心臟疾病方面有非常顯著的成效。
在音樂方面,可能某些讀者都用過一些歌曲識別的 Apps,如
Shazam 或
SoundHound,其實除了識別歌曲的名字,近年的技術某程度上已經可以識別音樂的種類、情感、樂器、節奏等等。
既然可以識別樂器和節奏,最前沿的研究就是如何將錄音分拆成個別樂器和聲音。目前已經有技術可以分拆數種樂器的混音, 而且分拆後能填補在錄音中失去的細節,每種樂器和聲音都可以自然流暢地播放。
經典聲音科技研究
介紹了一些比較嶄新的聲音科技後,我們可以概述一下一些經典的聲音科技之近期發展。
關於Hi-Fi 音響
通常一提起聲音技術,很多人就會想起音響系統,包括各種膽機,黑膠唱片機,喇叭等等。我們不會花很多時間在相關題目,特別是音響產品方面,因為目前已經有很多網上資源供大家參考。不過我們將會分享一些有趣的技術和新產品,例如耳筒降噪,個人化聲音耳筒等。
題外話,助聽器的設計是和耳筒設計有點相近的聲音技術研究。得益於近年的電子技術,加上與硬件的配合,助聽器的效果有很大改善,而且體積亦越來越細。
室內聲學設計 (Room Acoustics)
最早可以追溯至古羅馬時期,在建造劇場時,設計都會考慮到聲音的傳播,如何準確和平均地傳送聲音至每一個觀眾。近年,大部份劇場都移到室內,室內可以提供比較大的控制度,而室內聲學設計亦變得不可或缺。大部份劇場設計的時候,都會根據場地使用的類型慎重地考慮該劇場的聲音,例如交響樂,話劇,音樂劇,講座,不同的目的通常會有不同的設計。因此大部份專業的劇場,通常只建議作單一用途。 (大家現在應該明白,為什麼紅磡體育館其實並非一個理想的音樂表演場地)
同樣概念目前已經擴闊到劇場以外的地方。很多大公司的會議室或演講廳,都會請專人去設計聲學,確保房間內的對話清晰。錄音室或一些Hi-Fi聆聽室更不在話下,認真的製作者和用家一定會花很多時間去確保房間能夠準確地反映聲音的質素。
雖然聲學設計通常涉及專門的工具及專業訓練,但透過了解一些室內聲學設計的技術和方法,大家都可以改善自己房間的聲音。
錄音技術,聲音製作及處理
很多人未必能想像,平時我們聆聽到的聲音,背後之製作過程可能很複雜。例如流行曲,一般起碼要經過作曲,編曲,填詞,分軌錄音,聲音潤飾 (主要是人聲),混音,母帶處理 才能完成。讀者應該想像到當中有很多部份都需要聲音科技的支援。
作曲編曲的軟件暫且略過,先説明較主流的研究對象:錄音技術。錄音使用的咪不計其數,各種咪有不同的設計導致不同的錄音效果。雖然使用這些咪方式比較像藝術多於科學,但在設計各種咪的時候,聲音科技就是很重要的考量。而某些錄音技術,例如雙聲道或環繞聲錄音技術,亦基於很嚴謹的科學研究。目前亦有新的技術可以用一支咪去模擬各種不同型號的咪。
錄音軟件發展是近幾十年來的發展重點,過往製作音樂一般需要很多器材,甚至要去專門的錄音室。但近年基本上一部電腦已經可以取代絕大部份的硬件。過往的軟件發展,很多時都是想模擬各種錄音硬件的聲音,這包括各種樂器和效果,這技術稱為 Physical Modelling Synthesis (恕未能提供中文譯名)。除了模擬較「真實」的錄音硬件聲音外,創作虛擬的聲音亦一直是很流行的發展。電子音樂的興起,合成器一直佔有很重要的一席位。過往的合成器由很多硬件組成,很多專業的使用者都會有一整個房間的硬件,而現在用一部電腦就可以取代。配合適當的顯示和設計,電腦軟件更可以幫助我們重新理解合成器的技術,創作更多以往想像不到或不可能的聲效。
近年的機械學習發展,將軟件方面的發展推到另一層次。除了可以自動作曲編曲外 (
Amper Music,
Jukedeck) ,用機器學習技術,音樂製作過程上的細節可以簡化許多。特別在混音和母帶處理上,過去幾年都有飛躍性的發展。現在利用某些高科技軟件,如 iZotope 出品的軟件,只要簡單地調教一下對該錄音的聲音偏好,就可以得到很好的效果。除了音樂製作外,機械學習亦可以創作新的聲音,例如去
混合兩種不同的聲音。正如合成器導致電子音樂的發明,我們有理由相信,用機械學習製作的這些新聲音,可能會帶出新的音樂潮流。
Google Magenta 正嘗試引領這方面的應用。
其實除了音樂,影片的後期都是聲音製作的一部份。不過因為文章篇幅有限,暫時不深入說明。
聲音檔案格式
相信很多有玩音響的讀者對各種聲音格式都不會陌生,但大家未必知道背後的理論。從 MP3 年代開始,音樂開始變得廉價。這對音樂產業是福是禍就要交給各位讀者去定奪。無可否認的是,多得 MP3 格式的高壓縮率,大家可以很方便地傳播和分享音樂。近年串流音樂的流行,更加要歸功於壓縮檔的技術,大大減輕了網絡的負擔,確保了音樂的流暢。雖然大部份對聲音有要求的人,都不喜歡壓縮了的音樂,但其實以目前的技術,壓縮和非壓縮檔的音質分別未必很大。日後有機會會和大家分享一下聲音壓縮的技術和理論。
結語
以上很概括地講解了聲音科技的幾個大範疇,但聲音可以用到的地方其實遠遠不止如此,各範疇的細節亦非三言兩語可以講解清楚。不過希望透過以上的簡介,大家會多留意一下身邊聲音科技的應用,思考一下,聲音還可以為我們做什麼?