聲音科技可以為我們做什麼?

更新於 發佈於 閱讀時間約 8 分鐘
聲音科技可以說是眾多科技中常被忽略的一員,但其實有眾多應用就在我們身邊。In-phase Audio 的成立就是希望和大家分享最新的聲音科技。在增加大家對這方面技術的了解同時,可以擴闊大家對未來的想像。本文會概括地講一下一些流行的聲音科技應用。
 


目前最熱門的研究: 3D音效在VR和360影片中的應用

"We can’t build the AR product that we want today, so building VR is the path to getting to those AR glasses."
— Mark Zuckerberg
虛擬實境 (VR) 是除機械學習外目前最熱門的科技,世界各地不同的科技公司都大量投放資源在這方面的開發。要讓體驗者真正感覺處生於 VR 世界內,無論虛擬遊戲,抑或 360 影片,自然的聲音絕對不可或缺。最低限度用家在VR世界內聽到的聲音要和現實世界中一樣,可以從四面八方而來。近年見到越來越多人開始討論360相機,甚至不同的VR硬件,討論相關聲音技術的人卻不多。即使如此,眾多科技公司都投放很多資源在 3D 聲音的研究上。Google 推出了 Resonance Audio 軟件包,Facebook 推出了 Facebook 360 混音插件,YouTube 和 Facebook 的 360 影片都已經相繼支援 3D 音效,很多中國科技公司都開始投放資源進行3D音效的研究,遊戲製作軟件 Unity及 Unreal Engine 亦已經加入 3D 音效。可見未來一兩年會是 3D 音效的轉捩點,我們在未來會花大部分時間分享這方面的資訊,除了講解背後的技術,亦會介紹相關產品,甚至一些製作上的討論。
 
 


智能助手中的聲音科技

智能助手日漸普遍,現在基本上所有智能電話都會包括智能助手,Android 有 Google Assistant, iOS 有 Siri。在外國智能助手產品就更加普遍,除了最近蘋果開賣的 HomePod,Google 和亞馬遜 (Amazon) 在早幾年已經開始推出相關產品。這些智能助手最主要由兩部份組成: 語音溝通和電腦運算。電腦運算雖然在過去幾年都有飛躍的發展,但真正令到智能助手可以推出市場,是全靠電子語音溝通技術的改善。具體來說,就是如何讓電腦去理解我們的說話,和如何令電腦自然地說話。這兩方面在聲音科技研究上分別稱為語音識別 (Voice Recognition) 和語音合成 (Voice Synthesis)。
 


聲音識別技術 (Sound Identification / Bioacoustics)

近年很多聲音科技的應用其實得益於機械學習,包括早前提到在智能助手中的語音識別和語音合成。語音識別其實可以歸類為聲音識別技術。除了語音外,聲音識別技術還有很多其他用途,包括識別動物或昆蟲的品種 (Bioacoustics),甚至用作醫學診斷,特別在心臟疾病方面有非常顯著的成效。
在音樂方面,可能某些讀者都用過一些歌曲識別的 Apps,如 ShazamSoundHound,其實除了識別歌曲的名字,近年的技術某程度上已經可以識別音樂的種類、情感、樂器、節奏等等。
既然可以識別樂器和節奏,最前沿的研究就是如何將錄音分拆成個別樂器和聲音。目前已經有技術可以分拆數種樂器的混音, 而且分拆後能填補在錄音中失去的細節,每種樂器和聲音都可以自然流暢地播放。
 


經典聲音科技研究

介紹了一些比較嶄新的聲音科技後,我們可以概述一下一些經典的聲音科技之近期發展。

關於Hi-Fi 音響

通常一提起聲音技術,很多人就會想起音響系統,包括各種膽機,黑膠唱片機,喇叭等等。我們不會花很多時間在相關題目,特別是音響產品方面,因為目前已經有很多網上資源供大家參考。不過我們將會分享一些有趣的技術和新產品,例如耳筒降噪,個人化聲音耳筒等。
題外話,助聽器的設計是和耳筒設計有點相近的聲音技術研究。得益於近年的電子技術,加上與硬件的配合,助聽器的效果有很大改善,而且體積亦越來越細。
下圖為其中一款個人化聲音耳筒:Nuraphone
 
 


室內聲學設計 (Room Acoustics)

最早可以追溯至古羅馬時期,在建造劇場時,設計都會考慮到聲音的傳播,如何準確和平均地傳送聲音至每一個觀眾。近年,大部份劇場都移到室內,室內可以提供比較大的控制度,而室內聲學設計亦變得不可或缺。大部份劇場設計的時候,都會根據場地使用的類型慎重地考慮該劇場的聲音,例如交響樂,話劇,音樂劇,講座,不同的目的通常會有不同的設計。因此大部份專業的劇場,通常只建議作單一用途。 (大家現在應該明白,為什麼紅磡體育館其實並非一個理想的音樂表演場地)
同樣概念目前已經擴闊到劇場以外的地方。很多大公司的會議室或演講廳,都會請專人去設計聲學,確保房間內的對話清晰。錄音室或一些Hi-Fi聆聽室更不在話下,認真的製作者和用家一定會花很多時間去確保房間能夠準確地反映聲音的質素。
雖然聲學設計通常涉及專門的工具及專業訓練,但透過了解一些室內聲學設計的技術和方法,大家都可以改善自己房間的聲音。
 
 


錄音技術,聲音製作及處理
很多人未必能想像,平時我們聆聽到的聲音,背後之製作過程可能很複雜。例如流行曲,一般起碼要經過作曲,編曲,填詞,分軌錄音,聲音潤飾 (主要是人聲),混音,母帶處理 才能完成。讀者應該想像到當中有很多部份都需要聲音科技的支援。
作曲編曲的軟件暫且略過,先説明較主流的研究對象:錄音技術。錄音使用的咪不計其數,各種咪有不同的設計導致不同的錄音效果。雖然使用這些咪方式比較像藝術多於科學,但在設計各種咪的時候,聲音科技就是很重要的考量。而某些錄音技術,例如雙聲道或環繞聲錄音技術,亦基於很嚴謹的科學研究。目前亦有新的技術可以用一支咪去模擬各種不同型號的咪。
錄音軟件發展是近幾十年來的發展重點,過往製作音樂一般需要很多器材,甚至要去專門的錄音室。但近年基本上一部電腦已經可以取代絕大部份的硬件。過往的軟件發展,很多時都是想模擬各種錄音硬件的聲音,這包括各種樂器和效果,這技術稱為 Physical Modelling Synthesis (恕未能提供中文譯名)。除了模擬較「真實」的錄音硬件聲音外,創作虛擬的聲音亦一直是很流行的發展。電子音樂的興起,合成器一直佔有很重要的一席位。過往的合成器由很多硬件組成,很多專業的使用者都會有一整個房間的硬件,而現在用一部電腦就可以取代。配合適當的顯示和設計,電腦軟件更可以幫助我們重新理解合成器的技術,創作更多以往想像不到或不可能的聲效。
近年的機械學習發展,將軟件方面的發展推到另一層次。除了可以自動作曲編曲外 (Amper Music Jukedeck) ,用機器學習技術,音樂製作過程上的細節可以簡化許多。特別在混音和母帶處理上,過去幾年都有飛躍性的發展。現在利用某些高科技軟件,如 iZotope 出品的軟件,只要簡單地調教一下對該錄音的聲音偏好,就可以得到很好的效果。除了音樂製作外,機械學習亦可以創作新的聲音,例如去混合兩種不同的聲音。正如合成器導致電子音樂的發明,我們有理由相信,用機械學習製作的這些新聲音,可能會帶出新的音樂潮流。Google Magenta 正嘗試引領這方面的應用。
其實除了音樂,影片的後期都是聲音製作的一部份。不過因為文章篇幅有限,暫時不深入說明。
 
 


聲音檔案格式

相信很多有玩音響的讀者對各種聲音格式都不會陌生,但大家未必知道背後的理論。從 MP3 年代開始,音樂開始變得廉價。這對音樂產業是福是禍就要交給各位讀者去定奪。無可否認的是,多得 MP3 格式的高壓縮率,大家可以很方便地傳播和分享音樂。近年串流音樂的流行,更加要歸功於壓縮檔的技術,大大減輕了網絡的負擔,確保了音樂的流暢。雖然大部份對聲音有要求的人,都不喜歡壓縮了的音樂,但其實以目前的技術,壓縮和非壓縮檔的音質分別未必很大。日後有機會會和大家分享一下聲音壓縮的技術和理論。
 


結語

以上很概括地講解了聲音科技的幾個大範疇,但聲音可以用到的地方其實遠遠不止如此,各範疇的細節亦非三言兩語可以講解清楚。不過希望透過以上的簡介,大家會多留意一下身邊聲音科技的應用,思考一下,聲音還可以為我們做什麼?
 
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
你可能也想看
Google News 追蹤
Thumbnail
大家好,我是woody,是一名料理創作者,非常努力地在嘗試將複雜的料理簡單化,讓大家也可以體驗到料理的樂趣而我也非常享受料理的過程,今天想跟大家聊聊,除了料理本身,料理創作背後的成本。
Thumbnail
哈囉~很久沒跟各位自我介紹一下了~ 大家好~我是爺恩 我是一名圖文插畫家,有追蹤我一段時間的應該有發現爺恩這個品牌經營了好像.....快五年了(汗)時間過得真快!隨著時間過去,創作這件事好像變得更忙碌了,也很開心跟很多厲害的創作者以及廠商互相合作幫忙,還有最重要的是大家的支持與陪伴🥹。  
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
本文將分享當前全球最熱門的三個話題,包括與亡者視訊聊天、通用人工智慧(AGI)的發展趨勢,以及手機遊戲市場的挑戰。這些話題將帶給你對當前科技和趨勢的更深入瞭解。
Thumbnail
  在 AI 應用中,圖像、語音、文字三種可以說是主要應用,其中我一直以來都是專注於圖像上的研究,對於另兩種僅止於淺嚐,接下來就往音訊上研究看看,先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用,那麼,就讓我們開始吧。
Thumbnail
本週 AI 趨勢帶來了三個超酷的黑科技,包括語言翻譯耳機、AI 教練和 AI 音樂製作工具。這些創新科技幫助解決語言溝通、健身指導和音樂創作等問題,是數據、人工智慧和科技的未來。快來瞭解如何應用這些科技,打造更豐富的生活體驗吧!
Thumbnail
本章節要帶大家初探虛擬實境這個產業~~~ 伴隨著科技進步發展,VR 虛擬實境已逐漸擴大應用到許多產業之中,2021 年不能錯過的熱搜榜科技新詞「元宇宙」更是其混合使用的最強案例。然而, AR/VR 混合式的 MR 以及 XR 也趁勢崛起,大幅度的挑戰人們對於感官的互動體驗! 虛擬實境(Vir
Thumbnail
OpenAI近期公開了名為「Voice Engine(語音引擎)」的AI模型,使用者只要輸入文字與15秒的音訊樣本,該模型便會自動生成與原說話者相似的語音訊息。AI擬聲,也就是大家常說的聲音克隆(Voice Cloning),這項技術發展迅速,讓我們可以輕易複製一個人的聲音,產生合成語音
Thumbnail
合成聲音技術的未來充滿希望,也存在挑戰。OpenAI呼籲社會各界一起加強對這一新興技術的認識,並共同探索如何有效地利用這項技術,同時保護公眾免受潛在的負面影響。
Thumbnail
在這個快節奏的時代,人們對於科技產品的需求不斷進化,從實用性到舒適性,從外觀到體驗。在聲音傳輸領域,我們追求的不僅是清晰度與高質量,還有在使用過程中的舒適性與便利性。基於這樣的思考,「空氣樂境耳機」應運而生,它不僅顛覆了傳統耳機的設計理念,更開創了一種全新的聽覺體驗方式。
以我今天的練習,就有感到說,那陌生的當下感受,是什麼。 因此,就有得到貟訊,而開始進行分析和推論。 有時,是因為早有的情報,而進行結合。 因此,用聲音做媒介,就算是認識的,也可以活用和練習。 而最重要的,就是藉由聲音,進行感受。 今天的男個案,在嗓音的部分,是因為家人的相處出問題導致 對
Thumbnail
聲音經濟 (Voice Economy) 是指以聲音為基礎的商業模式、技術與應用,用於創造價值和增加用戶體驗。藉由 AI改變聲音的創作、傳播與消費,將大幅改變人們與科技和品牌互動的方式。本文探討了AI世代包括虛擬語音助理、智慧音箱、文字生成語音和Podcast等不容忽視的市場數據和商業機會。
Thumbnail
要如何做到無須任何額外訓練樣本就能做到"跨語言"的語音生成,這聽起來很不可思議對吧? 但這就是本篇論文取得的成就,不僅如此,該有的功能,如調整情感,口音節奏,停頓語調這些功能也不在話下。跟著我一起用探秘還有獨立思考的眼光來分析這篇論文,這會是很有趣的旅程。
Thumbnail
大家好,我是woody,是一名料理創作者,非常努力地在嘗試將複雜的料理簡單化,讓大家也可以體驗到料理的樂趣而我也非常享受料理的過程,今天想跟大家聊聊,除了料理本身,料理創作背後的成本。
Thumbnail
哈囉~很久沒跟各位自我介紹一下了~ 大家好~我是爺恩 我是一名圖文插畫家,有追蹤我一段時間的應該有發現爺恩這個品牌經營了好像.....快五年了(汗)時間過得真快!隨著時間過去,創作這件事好像變得更忙碌了,也很開心跟很多厲害的創作者以及廠商互相合作幫忙,還有最重要的是大家的支持與陪伴🥹。  
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
本文將分享當前全球最熱門的三個話題,包括與亡者視訊聊天、通用人工智慧(AGI)的發展趨勢,以及手機遊戲市場的挑戰。這些話題將帶給你對當前科技和趨勢的更深入瞭解。
Thumbnail
  在 AI 應用中,圖像、語音、文字三種可以說是主要應用,其中我一直以來都是專注於圖像上的研究,對於另兩種僅止於淺嚐,接下來就往音訊上研究看看,先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用,那麼,就讓我們開始吧。
Thumbnail
本週 AI 趨勢帶來了三個超酷的黑科技,包括語言翻譯耳機、AI 教練和 AI 音樂製作工具。這些創新科技幫助解決語言溝通、健身指導和音樂創作等問題,是數據、人工智慧和科技的未來。快來瞭解如何應用這些科技,打造更豐富的生活體驗吧!
Thumbnail
本章節要帶大家初探虛擬實境這個產業~~~ 伴隨著科技進步發展,VR 虛擬實境已逐漸擴大應用到許多產業之中,2021 年不能錯過的熱搜榜科技新詞「元宇宙」更是其混合使用的最強案例。然而, AR/VR 混合式的 MR 以及 XR 也趁勢崛起,大幅度的挑戰人們對於感官的互動體驗! 虛擬實境(Vir
Thumbnail
OpenAI近期公開了名為「Voice Engine(語音引擎)」的AI模型,使用者只要輸入文字與15秒的音訊樣本,該模型便會自動生成與原說話者相似的語音訊息。AI擬聲,也就是大家常說的聲音克隆(Voice Cloning),這項技術發展迅速,讓我們可以輕易複製一個人的聲音,產生合成語音
Thumbnail
合成聲音技術的未來充滿希望,也存在挑戰。OpenAI呼籲社會各界一起加強對這一新興技術的認識,並共同探索如何有效地利用這項技術,同時保護公眾免受潛在的負面影響。
Thumbnail
在這個快節奏的時代,人們對於科技產品的需求不斷進化,從實用性到舒適性,從外觀到體驗。在聲音傳輸領域,我們追求的不僅是清晰度與高質量,還有在使用過程中的舒適性與便利性。基於這樣的思考,「空氣樂境耳機」應運而生,它不僅顛覆了傳統耳機的設計理念,更開創了一種全新的聽覺體驗方式。
以我今天的練習,就有感到說,那陌生的當下感受,是什麼。 因此,就有得到貟訊,而開始進行分析和推論。 有時,是因為早有的情報,而進行結合。 因此,用聲音做媒介,就算是認識的,也可以活用和練習。 而最重要的,就是藉由聲音,進行感受。 今天的男個案,在嗓音的部分,是因為家人的相處出問題導致 對
Thumbnail
聲音經濟 (Voice Economy) 是指以聲音為基礎的商業模式、技術與應用,用於創造價值和增加用戶體驗。藉由 AI改變聲音的創作、傳播與消費,將大幅改變人們與科技和品牌互動的方式。本文探討了AI世代包括虛擬語音助理、智慧音箱、文字生成語音和Podcast等不容忽視的市場數據和商業機會。
Thumbnail
要如何做到無須任何額外訓練樣本就能做到"跨語言"的語音生成,這聽起來很不可思議對吧? 但這就是本篇論文取得的成就,不僅如此,該有的功能,如調整情感,口音節奏,停頓語調這些功能也不在話下。跟著我一起用探秘還有獨立思考的眼光來分析這篇論文,這會是很有趣的旅程。