擴散模型

含有「擴散模型」共 7 篇內容

全部內容

發佈日期由新至舊

2026/05/10

人工智慧如何生成聲音第九章＿聲音複製與語音轉換：為何 AI 可以模仿特定人的聲音

人的聲音雖然會隨著情緒、年齡與情境而改變，但在整體上仍然具有足夠穩定的個體性，因此可以作為身份的判準。語音複製技術之所以格外引人關注，正在於它動搖了這個假設：假使機器能夠生成一段「足以被誤認為某人」的語音，那麼聲音便不再是天然可靠的身份憑據，而成為可以被建模、被遷移、被再生產的統計結構。

#少樣本複製 #零樣本複製 #能力邊界

Dino Lee的AI 智識館

2026/05/04

人工智慧如何生成聲音第六章_生成式模型如何生成聲音：核心架構邏輯

自回歸模型擅長順序展開，VAE 擅長建立可操控的潛在空間，GAN 擅長逼近感知真實度，flow 擅長在採樣與密度估計之間取得精確平衡，擴散模型擅長把複雜生成問題拆成穩定的小步驟，而 token 模型則擅長把聲音重新帶入大型序列模型的方法論之中。這些框架像是可以互補、可以組合、也可以彼此嵌套的工具箱。

綠豆湯不只是食譜，更是一個動態系統：浸泡決定吸水均勻度，加熱控制能量輸入，裂解釋放澱粉與色素，濃度則呈現湯色變化。最佳狀態是湯色鮮綠或濃綠，豆仁柔軟不碎，營養物質已充分釋放。煮太久或放置過久會因氧化而變暗或偏紅，加入檸檬能延緩顏色劣化。

含 AI 應用內容

#料理邏輯 #營養釋放 #熱傳導

Dino Lee的AI 智識館

2026/03/31

AI時代的聲音敘事與創作革命第二章　核心概念：聲音在AI眼中並非波形

現實世界中的聲音，先被數位化成可計算的資料，再被轉換為適合模型處理的表示形式，例如token或其他壓縮編碼；接著，模型在潛在空間中學會不同聲音特徵之間的關係，並透過機率機制，例如自回歸預測或擴散模型去噪，生成新的聲音結果。這整個過程的核心不是「複製現實」，而是「在模式中重新構成可能的現實」。

#聲音取樣 #潛在空間 #機率

WHITE LAB｜白話實驗室的沙龍

2026/03/10

【神機營 AI 實戰】第三篇：造物神譜與萬法之源｜生成模型與 Diffusion 架構解析

本篇以武俠情境解析生成式 AI 核心架構，介紹生成模型、GAN、VAE 與 Diffusion 等影像生成技術，並說明自回歸語言模型、遮罩語言模型與多模態模型在圖文生成任務中的應用。透過造物陣法譜系，協助理解條件生成與潛在擴散模型的運作原理，建立生成式 AI 模型基礎概念。

含 AI 應用內容

#生成模型 #GAN #VAE

吱吱喳喳

2025/05/17

【Goolge 課程筆記】Introduction to Image Generation ：認識圖像生成 AI

這篇文章整理了Introduction to Image Generation課程的重點筆記，介紹圖像生成模型的類型、擴散模型的原理、運作方式和訓練方法。課程涵蓋變分自動編碼器、生成對抗網路、自迴歸模型和擴散模型等，深入淺出地解釋擴散模型的正向和反向擴散過程，以及如何利用雜訊的加入和去除來生成圖像。