付費限定

一起探索文生語音的奧術,OpenVoice 開源MyShell.ai後臺模型

更新於 2024/01/19閱讀時間約 6 分鐘

要如何做到無須任何額外訓練樣本就能做到"跨語言"的語音生成,這聽起來很不可思議對吧? 但這就是OpenVoice Model取得的最大成就,不僅如此,該有的功能,如調整情感,口音節奏,停頓語調這些功能也不在話下。此外,運算效率極高,效果卻超群。跟我一起用探秘還有獨立思考的眼光來分析這篇論文,這會是很有趣的旅程。


技術亮點:

假設現在有一個專門講英文的老外,你很喜歡他的聲音,想讓他講中文,你只需要輸入他的聲音,然後打入中文,他就能開始使用他的聲音講中文,然後你為了要產生一些情緒落差,可以調整讓他開心或是難過的講完內容。突然你又想要讓他講台灣國語,也可以調整讓他講台灣國語,所有的語音戲劇效果,都能夠用很簡單的方式產生。


關鍵技術探秘:

其實不管是情緒/語調還是口音,都可以藉由學習有標記過的語音資料集配合文字來進行學習,這些條件在使用上也是放在輸入端當成選項,更為方便一些,這塊有大量的Previous Work可以參考,本篇作者使用 VITS架構,把要生成的語音風格利用MLP(多層感知層) 化成Embedding和文字的Embedding混合再輸入到Text Encoder裡面,其它的完全使用VITS架構,這告訴我們想要加一些額外的條件進入本來的Model裡面都可以使用這種便宜簡單的方法,但這個並不能算是獨門秘訣,比較廣為人知。

緊接著,拿手絕活登場了,下圖標紅字的部分,用了Tone Color Extractor自己的Base Speaker Encoder輸入到Flow (Normalization Flow Layer)裡面,並使用minimize KL-divergence & Time-domain warping的方式來盡可能的去除音色(Tone Color),讓其純粹的表達國際音標(IPA)所對應到的聲音,好讓Tone Color Extractor自己的Reference Speaker Encoder可以盡可能地往裡面加入音色,不會混雜了Base speaker TTS model 原有的音色。

以行動支持創作者!付費即可解鎖
本篇內容共 2495 字、2 則留言,僅發佈於人工智慧宇宙你目前無法檢視以下內容,可能因為尚未登入,或沒有該房間的查看權限。
avatar-img
96會員
128內容數
帶你用上帝視角,針對市面上具有高度價值的影片/論文/書籍,用東方取象,與西方邏輯辯證的角度同時出發,跟著我一起來探討宇宙萬事萬物的本質,隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷,近期對於人工智慧,東方易經,西方辯證邏輯,還有佛法向內求有深度興趣。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
Transformer被廣泛運用在各種生成式AI,激起了本篇作者的好奇心,是否能用Transformer學到所有先驗知識,足以讓它由一張2D圖片還原3D物件。本篇也從Github上面找到由ZexinHe開源的LRM實作程式,讓有興趣的人可以深入研究。
文字生成圖片的擴散生成模型,實際應用上並沒有想像中好用,原因在於,文字能夠乘載的訊息量太少,要產生好的生成結果一定程度仰賴特定的Prompt描述方法,如DALL-E3使用GPT4不斷增加描述的細節,讓文生圖的結果更好,有沒有更有效率的方式呢?
知名的 Mistral AI 團隊近期丟出了使用 SMOE技術搭建的Mixtral-8x7B,能用較小的運算資源與參數量,打敗ChatGPT3的考試成績。本文藉由兩篇SMOE論文的導讀,抽取其中的核心概念,試圖打開技術的神秘面紗。
Stability AI在圖片/影片/聲音生成領域貢獻了不少心力,近期提出了更加高效率的對抗生成蒸餾方法,只需進行一步計算,便能打敗LCM需要4步計算的結果,來看看具體是如何做到的。
本篇文章為大家導讀近日火熱的Mamba Paper,新聞標題說它是Transformer的繼任者,是否真是如此? 讓我們一起一探究竟,本文著重介紹論文前半部分。
Starling-LM-7B近來火燙,有使用到本篇的C-RLFT技術,基於此基礎上可以把7B小模型的微調成績做到頂尖,一起來理解OpenChat 的 C-RLFT技術是如何實現的,所能產生的效果為何,以及探索為何能達到這樣好的成績。
Transformer被廣泛運用在各種生成式AI,激起了本篇作者的好奇心,是否能用Transformer學到所有先驗知識,足以讓它由一張2D圖片還原3D物件。本篇也從Github上面找到由ZexinHe開源的LRM實作程式,讓有興趣的人可以深入研究。
文字生成圖片的擴散生成模型,實際應用上並沒有想像中好用,原因在於,文字能夠乘載的訊息量太少,要產生好的生成結果一定程度仰賴特定的Prompt描述方法,如DALL-E3使用GPT4不斷增加描述的細節,讓文生圖的結果更好,有沒有更有效率的方式呢?
知名的 Mistral AI 團隊近期丟出了使用 SMOE技術搭建的Mixtral-8x7B,能用較小的運算資源與參數量,打敗ChatGPT3的考試成績。本文藉由兩篇SMOE論文的導讀,抽取其中的核心概念,試圖打開技術的神秘面紗。
Stability AI在圖片/影片/聲音生成領域貢獻了不少心力,近期提出了更加高效率的對抗生成蒸餾方法,只需進行一步計算,便能打敗LCM需要4步計算的結果,來看看具體是如何做到的。
本篇文章為大家導讀近日火熱的Mamba Paper,新聞標題說它是Transformer的繼任者,是否真是如此? 讓我們一起一探究竟,本文著重介紹論文前半部分。
Starling-LM-7B近來火燙,有使用到本篇的C-RLFT技術,基於此基礎上可以把7B小模型的微調成績做到頂尖,一起來理解OpenChat 的 C-RLFT技術是如何實現的,所能產生的效果為何,以及探索為何能達到這樣好的成績。
你可能也想看
Google News 追蹤
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
【記者_許家源/雙北報導】 新竹市文化局於112-09-06宣布《風城社造•不設罩》Podcast的開播。 首集特邀高虹安市長參與,將探討城市治理和社區營造的關聯性。 Podcast將於9月9日首播,總共計劃播出6集,每週六早上8時更新。 市民和社區愛好者都受邀參與,共同探索新竹社區的特色和
Thumbnail
這系列產品有7款 每天可以享受不同的香味😆 (圖片取自July七月爾美官方蝦皮網站) 這次我使用的是「木質麝香」 💙木質麝香WoodyMusk 在柔和的香皂香氣中 加入沉穩細膩的木質香 散發舒適恬靜的氛圍 這罐和𝗗𝗶𝗽𝘁𝘆𝗾𝘂𝗲香水出的 #杜桑 味道一模一樣!
Thumbnail
【記者_許家源/雙北報導】 您是否曾經想過,在台語中要怎麼唸「黑洞」這個詞呢?台北天文館為您帶來一場特別的學習饗宴,邀請國立中央大學天文研究所蔡安理博士後研究員於9月3日舉辦主題為「烏洞 ê 烏是啥物款 ê 烏?」的專題演講,讓您學會用台語來描述天文學的奧秘。黑洞是否黑的?它有洞嗎?有多大?究竟如
Thumbnail
正念(Mindfulness)。正念減壓培訓課程創始人喬•卡巴金博士,為正念下了一個操作型定義:「正念是時時刻刻非評價的覺察,需要刻意練習」。本文將介紹一些正念的好處與方法,幫助你正念練習並開起自我療愈的旅程。
Thumbnail
_#阿梅要開占星課 學占星這件事,我們最關心/最想了解與最了解的通常都是自己,我們渴望體驗那些原本只是在我們自己裡面的我們自己,得到一個外部的印證、回音與肯認,所帶來的連結性的快樂。 這個占星課是一個初階課,它包含了「學會閱讀一張星盤」的基礎元素與步驟,以及關於 如何想像一張星盤,概念性質的導論課。
🕮此為Podcast說書頻道【TOGETHER 一起讀】的《困在大腦裡的人》EP10文字稿,建議可以搭配音檔效果更佳: 👉ApplePodcast:TOGETHER 一起讀 👉Spotify:TOGETHER 一起讀
Thumbnail
大家好! 我是Niantic的資深製作人Ziah,我很高興能在這裡向各位介紹全新Niantic遊戲的樣貌,而我們也即將在事先選定的市場上進行試營運。 如果寵物是你生活中的一部份,那你應該非常瞭解寵物能帶給我們的快樂。當你與寵物建立起深厚情誼、呵護牠們並一起成長,就能獲得無與倫比的成就感。
Thumbnail
物業管理服務{提供全方位的專業物業管理} 資產經營管理 投資顧問 策略顧問 國際物業銷售 豪宅行銷買賣 專案銷售和投資 租賃服務 商場顧問 商場管理 商場招商 商務飯店經營管理 會議中心經營管理 俱樂部經營管理 寫字樓租賃管理 樓宇租賃服務 擬訂有效的招租策略 透過多種渠道全面推廣物業單位 插花班
Thumbnail
兩本繪本分別將孩子的出生和行為的模樣比喻小動物,文字簡單又帶點詩意,同樣的句型不斷重覆,像是「在我遇見你的時候,你小小的、你發抖著,我想你是隻小兔子吧。我將你抱得緊緊的,這樣讓你很溫暖。」兩本繪本的結尾都回到人類寶寶和媽媽溫馨的互動。
Thumbnail
聊聊BAR就此開張啦>////< 在聊聊BAR裡我是IMMA,用聲音說故事的IMMA。 送上試營運的單集給大家享用 預告|下一集2/7上線 每個禮拜一、五更新
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
【記者_許家源/雙北報導】 新竹市文化局於112-09-06宣布《風城社造•不設罩》Podcast的開播。 首集特邀高虹安市長參與,將探討城市治理和社區營造的關聯性。 Podcast將於9月9日首播,總共計劃播出6集,每週六早上8時更新。 市民和社區愛好者都受邀參與,共同探索新竹社區的特色和
Thumbnail
這系列產品有7款 每天可以享受不同的香味😆 (圖片取自July七月爾美官方蝦皮網站) 這次我使用的是「木質麝香」 💙木質麝香WoodyMusk 在柔和的香皂香氣中 加入沉穩細膩的木質香 散發舒適恬靜的氛圍 這罐和𝗗𝗶𝗽𝘁𝘆𝗾𝘂𝗲香水出的 #杜桑 味道一模一樣!
Thumbnail
【記者_許家源/雙北報導】 您是否曾經想過,在台語中要怎麼唸「黑洞」這個詞呢?台北天文館為您帶來一場特別的學習饗宴,邀請國立中央大學天文研究所蔡安理博士後研究員於9月3日舉辦主題為「烏洞 ê 烏是啥物款 ê 烏?」的專題演講,讓您學會用台語來描述天文學的奧秘。黑洞是否黑的?它有洞嗎?有多大?究竟如
Thumbnail
正念(Mindfulness)。正念減壓培訓課程創始人喬•卡巴金博士,為正念下了一個操作型定義:「正念是時時刻刻非評價的覺察,需要刻意練習」。本文將介紹一些正念的好處與方法,幫助你正念練習並開起自我療愈的旅程。
Thumbnail
_#阿梅要開占星課 學占星這件事,我們最關心/最想了解與最了解的通常都是自己,我們渴望體驗那些原本只是在我們自己裡面的我們自己,得到一個外部的印證、回音與肯認,所帶來的連結性的快樂。 這個占星課是一個初階課,它包含了「學會閱讀一張星盤」的基礎元素與步驟,以及關於 如何想像一張星盤,概念性質的導論課。
🕮此為Podcast說書頻道【TOGETHER 一起讀】的《困在大腦裡的人》EP10文字稿,建議可以搭配音檔效果更佳: 👉ApplePodcast:TOGETHER 一起讀 👉Spotify:TOGETHER 一起讀
Thumbnail
大家好! 我是Niantic的資深製作人Ziah,我很高興能在這裡向各位介紹全新Niantic遊戲的樣貌,而我們也即將在事先選定的市場上進行試營運。 如果寵物是你生活中的一部份,那你應該非常瞭解寵物能帶給我們的快樂。當你與寵物建立起深厚情誼、呵護牠們並一起成長,就能獲得無與倫比的成就感。
Thumbnail
物業管理服務{提供全方位的專業物業管理} 資產經營管理 投資顧問 策略顧問 國際物業銷售 豪宅行銷買賣 專案銷售和投資 租賃服務 商場顧問 商場管理 商場招商 商務飯店經營管理 會議中心經營管理 俱樂部經營管理 寫字樓租賃管理 樓宇租賃服務 擬訂有效的招租策略 透過多種渠道全面推廣物業單位 插花班
Thumbnail
兩本繪本分別將孩子的出生和行為的模樣比喻小動物,文字簡單又帶點詩意,同樣的句型不斷重覆,像是「在我遇見你的時候,你小小的、你發抖著,我想你是隻小兔子吧。我將你抱得緊緊的,這樣讓你很溫暖。」兩本繪本的結尾都回到人類寶寶和媽媽溫馨的互動。
Thumbnail
聊聊BAR就此開張啦>////< 在聊聊BAR裡我是IMMA,用聲音說故事的IMMA。 送上試營運的單集給大家享用 預告|下一集2/7上線 每個禮拜一、五更新