付費限定

一起探索文生語音的奧術,OpenVoice 開源MyShell.ai後臺模型

更新於 發佈於 閱讀時間約 6 分鐘

要如何做到無須任何額外訓練樣本就能做到"跨語言"的語音生成,這聽起來很不可思議對吧? 但這就是OpenVoice Model取得的最大成就,不僅如此,該有的功能,如調整情感,口音節奏,停頓語調這些功能也不在話下。此外,運算效率極高,效果卻超群。跟我一起用探秘還有獨立思考的眼光來分析這篇論文,這會是很有趣的旅程。


技術亮點:

假設現在有一個專門講英文的老外,你很喜歡他的聲音,想讓他講中文,你只需要輸入他的聲音,然後打入中文,他就能開始使用他的聲音講中文,然後你為了要產生一些情緒落差,可以調整讓他開心或是難過的講完內容。突然你又想要讓他講台灣國語,也可以調整讓他講台灣國語,所有的語音戲劇效果,都能夠用很簡單的方式產生。


關鍵技術探秘:

其實不管是情緒/語調還是口音,都可以藉由學習有標記過的語音資料集配合文字來進行學習,這些條件在使用上也是放在輸入端當成選項,更為方便一些,這塊有大量的Previous Work可以參考,本篇作者使用 VITS架構,把要生成的語音風格利用MLP(多層感知層) 化成Embedding和文字的Embedding混合再輸入到Text Encoder裡面,其它的完全使用VITS架構,這告訴我們想要加一些額外的條件進入本來的Model裡面都可以使用這種便宜簡單的方法,但這個並不能算是獨門秘訣,比較廣為人知。

緊接著,拿手絕活登場了,下圖標紅字的部分,用了Tone Color Extractor自己的Base Speaker Encoder輸入到Flow (Normalization Flow Layer)裡面,並使用minimize KL-divergence & Time-domain warping的方式來盡可能的去除音色(Tone Color),讓其純粹的表達國際音標(IPA)所對應到的聲音,好讓Tone Color Extractor自己的Reference Speaker Encoder可以盡可能地往裡面加入音色,不會混雜了Base speaker TTS model 原有的音色。

以行動支持創作者!付費即可解鎖
本篇內容共 2495 字、2 則留言,僅發佈於人工智慧宇宙你目前無法檢視以下內容,可能因為尚未登入,或沒有該房間的查看權限。
avatar-img
95會員
128內容數
帶你用上帝視角,針對市面上具有高度價值的影片/論文/書籍,用東方取象,與西方邏輯辯證的角度同時出發,跟著我一起來探討宇宙萬事萬物的本質,隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷,近期對於人工智慧,東方易經,西方辯證邏輯,還有佛法向內求有深度興趣。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
Transformer被廣泛運用在各種生成式AI,激起了本篇作者的好奇心,是否能用Transformer學到所有先驗知識,足以讓它由一張2D圖片還原3D物件。本篇也從Github上面找到由ZexinHe開源的LRM實作程式,讓有興趣的人可以深入研究。
文字生成圖片的擴散生成模型,實際應用上並沒有想像中好用,原因在於,文字能夠乘載的訊息量太少,要產生好的生成結果一定程度仰賴特定的Prompt描述方法,如DALL-E3使用GPT4不斷增加描述的細節,讓文生圖的結果更好,有沒有更有效率的方式呢?
知名的 Mistral AI 團隊近期丟出了使用 SMOE技術搭建的Mixtral-8x7B,能用較小的運算資源與參數量,打敗ChatGPT3的考試成績。本文藉由兩篇SMOE論文的導讀,抽取其中的核心概念,試圖打開技術的神秘面紗。
Stability AI在圖片/影片/聲音生成領域貢獻了不少心力,近期提出了更加高效率的對抗生成蒸餾方法,只需進行一步計算,便能打敗LCM需要4步計算的結果,來看看具體是如何做到的。
本篇文章為大家導讀近日火熱的Mamba Paper,新聞標題說它是Transformer的繼任者,是否真是如此? 讓我們一起一探究竟,本文著重介紹論文前半部分。
Starling-LM-7B近來火燙,有使用到本篇的C-RLFT技術,基於此基礎上可以把7B小模型的微調成績做到頂尖,一起來理解OpenChat 的 C-RLFT技術是如何實現的,所能產生的效果為何,以及探索為何能達到這樣好的成績。
Transformer被廣泛運用在各種生成式AI,激起了本篇作者的好奇心,是否能用Transformer學到所有先驗知識,足以讓它由一張2D圖片還原3D物件。本篇也從Github上面找到由ZexinHe開源的LRM實作程式,讓有興趣的人可以深入研究。
文字生成圖片的擴散生成模型,實際應用上並沒有想像中好用,原因在於,文字能夠乘載的訊息量太少,要產生好的生成結果一定程度仰賴特定的Prompt描述方法,如DALL-E3使用GPT4不斷增加描述的細節,讓文生圖的結果更好,有沒有更有效率的方式呢?
知名的 Mistral AI 團隊近期丟出了使用 SMOE技術搭建的Mixtral-8x7B,能用較小的運算資源與參數量,打敗ChatGPT3的考試成績。本文藉由兩篇SMOE論文的導讀,抽取其中的核心概念,試圖打開技術的神秘面紗。
Stability AI在圖片/影片/聲音生成領域貢獻了不少心力,近期提出了更加高效率的對抗生成蒸餾方法,只需進行一步計算,便能打敗LCM需要4步計算的結果,來看看具體是如何做到的。
本篇文章為大家導讀近日火熱的Mamba Paper,新聞標題說它是Transformer的繼任者,是否真是如此? 讓我們一起一探究竟,本文著重介紹論文前半部分。
Starling-LM-7B近來火燙,有使用到本篇的C-RLFT技術,基於此基礎上可以把7B小模型的微調成績做到頂尖,一起來理解OpenChat 的 C-RLFT技術是如何實現的,所能產生的效果為何,以及探索為何能達到這樣好的成績。
你可能也想看
Google News 追蹤
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
這篇文章分享了一個有趣的親子戶外活動,透過押花套組,讓孩子在大小植物中探索與觀察。孩子們在戶外尋寶,學會記錄和觀察的過程,不僅增進了親子互動,也讓學習和玩樂完美結合。歡迎家長們一起參與,珍惜與孩子共同創造的美好回憶。支持環保,鼓勵孩子愛上大自然。
在什麼東西都要數位化的時代中,資訊安全是每個企業和個人都必須重視的議題。隨著網路攻擊手法的日益進化,尤其是APT攻擊,讓許多組織感到不安。這種攻擊方式不僅隱蔽,還會持續地對目標進行滲透,造成難以估量的損失。在這樣的背景下,EDR技術的出現,為我們提供了一個有效的防護工具。
Thumbnail
嗨大家好,我是CN~你們還記得在小時候一點點小事就會讓自己忍不住哭出來的時候嗎?而這種充滿情緒的時刻!被一隻卡通角色「Crybaby」真實演繹出來了!Crybaby自推出以來,憑藉她獨特的情感表達和可愛的形象,一躍成為年輕人心中的新寵。那我們就來暸解看看Crybaby這個角色,並深入了解她背後的故事
Thumbnail
我們前面幾篇已經講完TTS技術的一大半架構了,知道了如何將聲學特徵重建回音訊波形,也從中可以知道要是聲學特徵不完善,最終取得的結果也會不自然,剩下要探討該如何將文字轉換成聲學特徵,且能夠自然地表現停頓及細節變化,讓我們開始吧。
Thumbnail
皮克斯動畫電影通過精心編織的情節,真實的情感表達和出色的動畫技術,探索人類情感、家庭關係和成長主題。在這篇文章中,我們詳細瞭解萊莉的大腦情緒總部以及其成員。同時,我們也看到角色萊莉如何面對情緒,並且以此作為自身成長的對話。
Thumbnail
還記得我們之前介紹過「【Google Colab Python系列】 初探Whisper: 來一段Youtube影片進行語音辨識吧!」這套語音辨識引擎, 那為什麼我們又要教這一套? 因為我們也可以將whisper的模型轉換成onnx的格式, 輕鬆移植到各種平台, 且效能更佳。 語音辨識的熱門組件之
Thumbnail
「人工智障計畫」也執行了好一段時間了,關於這個專案中文字轉語音的方案,在之前的筆記中也有稍微提到,為了達成能自訂聲線,並且能完全離線運作兩個條件,我已經做過了不少嘗試。
Thumbnail
免費文字轉語音(Free text to speech)免費的線上語音合成工具,使用微軟 AI 語音庫生成仿真人語音,支援 129 種語言,提供三百多種聲音,輸入文本即可線上聆聽和下載 MP3 檔案。
Thumbnail
要如何做到無須任何額外訓練樣本就能做到"跨語言"的語音生成,這聽起來很不可思議對吧? 但這就是本篇論文取得的成就,不僅如此,該有的功能,如調整情感,口音節奏,停頓語調這些功能也不在話下。跟著我一起用探秘還有獨立思考的眼光來分析這篇論文,這會是很有趣的旅程。
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
這篇文章分享了一個有趣的親子戶外活動,透過押花套組,讓孩子在大小植物中探索與觀察。孩子們在戶外尋寶,學會記錄和觀察的過程,不僅增進了親子互動,也讓學習和玩樂完美結合。歡迎家長們一起參與,珍惜與孩子共同創造的美好回憶。支持環保,鼓勵孩子愛上大自然。
在什麼東西都要數位化的時代中,資訊安全是每個企業和個人都必須重視的議題。隨著網路攻擊手法的日益進化,尤其是APT攻擊,讓許多組織感到不安。這種攻擊方式不僅隱蔽,還會持續地對目標進行滲透,造成難以估量的損失。在這樣的背景下,EDR技術的出現,為我們提供了一個有效的防護工具。
Thumbnail
嗨大家好,我是CN~你們還記得在小時候一點點小事就會讓自己忍不住哭出來的時候嗎?而這種充滿情緒的時刻!被一隻卡通角色「Crybaby」真實演繹出來了!Crybaby自推出以來,憑藉她獨特的情感表達和可愛的形象,一躍成為年輕人心中的新寵。那我們就來暸解看看Crybaby這個角色,並深入了解她背後的故事
Thumbnail
我們前面幾篇已經講完TTS技術的一大半架構了,知道了如何將聲學特徵重建回音訊波形,也從中可以知道要是聲學特徵不完善,最終取得的結果也會不自然,剩下要探討該如何將文字轉換成聲學特徵,且能夠自然地表現停頓及細節變化,讓我們開始吧。
Thumbnail
皮克斯動畫電影通過精心編織的情節,真實的情感表達和出色的動畫技術,探索人類情感、家庭關係和成長主題。在這篇文章中,我們詳細瞭解萊莉的大腦情緒總部以及其成員。同時,我們也看到角色萊莉如何面對情緒,並且以此作為自身成長的對話。
Thumbnail
還記得我們之前介紹過「【Google Colab Python系列】 初探Whisper: 來一段Youtube影片進行語音辨識吧!」這套語音辨識引擎, 那為什麼我們又要教這一套? 因為我們也可以將whisper的模型轉換成onnx的格式, 輕鬆移植到各種平台, 且效能更佳。 語音辨識的熱門組件之
Thumbnail
「人工智障計畫」也執行了好一段時間了,關於這個專案中文字轉語音的方案,在之前的筆記中也有稍微提到,為了達成能自訂聲線,並且能完全離線運作兩個條件,我已經做過了不少嘗試。
Thumbnail
免費文字轉語音(Free text to speech)免費的線上語音合成工具,使用微軟 AI 語音庫生成仿真人語音,支援 129 種語言,提供三百多種聲音,輸入文本即可線上聆聽和下載 MP3 檔案。
Thumbnail
要如何做到無須任何額外訓練樣本就能做到"跨語言"的語音生成,這聽起來很不可思議對吧? 但這就是本篇論文取得的成就,不僅如此,該有的功能,如調整情感,口音節奏,停頓語調這些功能也不在話下。跟著我一起用探秘還有獨立思考的眼光來分析這篇論文,這會是很有趣的旅程。