Dino Lee的AI 智識館
AI原理書房
3
免費公開
房間資訊
這是一間通往人工智慧知識核心的書房。從機器學習、深度學習到生成式 AI,這裡將持續收納我對 AI 基本原理的系統書寫,陪你一步一步理解AI技術如何生成新的世界。
全部
全部
全部類型
免費與付費
最新發佈
最新發佈
Dino Lee
2026/04/17
人工智慧如何生成聲音 第三章_機器如何「理解」聲音
機器究竟是如何「理解」聲音的?對人類而言,這個問題似乎不難。我們能分辨一句話說了什麼、是誰在說、語氣是否緊張、背景是否嘈雜。然而,對機器而言,輸入只是一串隨時間變化的數值。機器並不天然知道音高、音色、語速、情緒或語意,它只能透過某種表徵方式,把原始訊號轉換成對任務有用的形式。
#
表徵學習
#
自監督學習
#
多層次資訊
Dino Lee
2026/04/17
人工智慧如何生成聲音 第三章_機器如何「理解」聲音
機器究竟是如何「理解」聲音的?對人類而言,這個問題似乎不難。我們能分辨一句話說了什麼、是誰在說、語氣是否緊張、背景是否嘈雜。然而,對機器而言,輸入只是一串隨時間變化的數值。機器並不天然知道音高、音色、語速、情緒或語意,它只能透過某種表徵方式,把原始訊號轉換成對任務有用的形式。
#
表徵學習
#
自監督學習
#
多層次資訊
Dino Lee
2026/04/16
人工智慧如何生成聲音 第二章_聲音的數位表徵
AI 並不是直接理解「聲音」,而是理解某種表徵。模型實際接觸到的,可能是原始波形,也可能是頻譜圖、Mel 頻譜圖、MFCC,或離散音訊 token。每一種表徵都不是單純的格式差異,而是對聲音資訊的一種重組與取捨。表徵選擇得不同,模型所面對的學習問題就會不同,系統的優勢與限制也會跟著改變。
#
波形
#
傅立葉轉換
#
頻譜圖
1
Dino Lee
2026/04/16
人工智慧如何生成聲音 第二章_聲音的數位表徵
AI 並不是直接理解「聲音」,而是理解某種表徵。模型實際接觸到的,可能是原始波形,也可能是頻譜圖、Mel 頻譜圖、MFCC,或離散音訊 token。每一種表徵都不是單純的格式差異,而是對聲音資訊的一種重組與取捨。表徵選擇得不同,模型所面對的學習問題就會不同,系統的優勢與限制也會跟著改變。
#
波形
#
傅立葉轉換
#
頻譜圖
1
Dino Lee
2026/04/16
人工智慧如何生成聲音 第一章_為什麼要從人工智慧的角度理解聲音生成
聲音生成有一個重要的特點:聲音不是靜態的物件,而是沿著時間展開的動態結構。一段語音或音樂必須隨著時間逐步被感知。它有開始、有延續、有節奏、有轉折;它既包含瞬時的頻率結構,也包含跨越更長時間範圍的韻律與形式。生成聲音不是單純把正確的元素「放上去」就好,而是要讓這些元素在時間中以合理的方式發生。
#
生成式AI
#
聲音生成
#
技術原理
2
Dino Lee
2026/04/16
人工智慧如何生成聲音 第一章_為什麼要從人工智慧的角度理解聲音生成
聲音生成有一個重要的特點:聲音不是靜態的物件,而是沿著時間展開的動態結構。一段語音或音樂必須隨著時間逐步被感知。它有開始、有延續、有節奏、有轉折;它既包含瞬時的頻率結構,也包含跨越更長時間範圍的韻律與形式。生成聲音不是單純把正確的元素「放上去」就好,而是要讓這些元素在時間中以合理的方式發生。
#
生成式AI
#
聲音生成
#
技術原理
2
加入
全部
全部
全部類型
免費與付費
最新發佈
最新發佈
Dino Lee
2026/04/17
人工智慧如何生成聲音 第三章_機器如何「理解」聲音
機器究竟是如何「理解」聲音的?對人類而言,這個問題似乎不難。我們能分辨一句話說了什麼、是誰在說、語氣是否緊張、背景是否嘈雜。然而,對機器而言,輸入只是一串隨時間變化的數值。機器並不天然知道音高、音色、語速、情緒或語意,它只能透過某種表徵方式,把原始訊號轉換成對任務有用的形式。
#
表徵學習
#
自監督學習
#
多層次資訊
Dino Lee
2026/04/17
人工智慧如何生成聲音 第三章_機器如何「理解」聲音
機器究竟是如何「理解」聲音的?對人類而言,這個問題似乎不難。我們能分辨一句話說了什麼、是誰在說、語氣是否緊張、背景是否嘈雜。然而,對機器而言,輸入只是一串隨時間變化的數值。機器並不天然知道音高、音色、語速、情緒或語意,它只能透過某種表徵方式,把原始訊號轉換成對任務有用的形式。
#
表徵學習
#
自監督學習
#
多層次資訊
Dino Lee
2026/04/16
人工智慧如何生成聲音 第二章_聲音的數位表徵
AI 並不是直接理解「聲音」,而是理解某種表徵。模型實際接觸到的,可能是原始波形,也可能是頻譜圖、Mel 頻譜圖、MFCC,或離散音訊 token。每一種表徵都不是單純的格式差異,而是對聲音資訊的一種重組與取捨。表徵選擇得不同,模型所面對的學習問題就會不同,系統的優勢與限制也會跟著改變。
#
波形
#
傅立葉轉換
#
頻譜圖
1
Dino Lee
2026/04/16
人工智慧如何生成聲音 第二章_聲音的數位表徵
AI 並不是直接理解「聲音」,而是理解某種表徵。模型實際接觸到的,可能是原始波形,也可能是頻譜圖、Mel 頻譜圖、MFCC,或離散音訊 token。每一種表徵都不是單純的格式差異,而是對聲音資訊的一種重組與取捨。表徵選擇得不同,模型所面對的學習問題就會不同,系統的優勢與限制也會跟著改變。
#
波形
#
傅立葉轉換
#
頻譜圖
1
Dino Lee
2026/04/16
人工智慧如何生成聲音 第一章_為什麼要從人工智慧的角度理解聲音生成
聲音生成有一個重要的特點:聲音不是靜態的物件,而是沿著時間展開的動態結構。一段語音或音樂必須隨著時間逐步被感知。它有開始、有延續、有節奏、有轉折;它既包含瞬時的頻率結構,也包含跨越更長時間範圍的韻律與形式。生成聲音不是單純把正確的元素「放上去」就好,而是要讓這些元素在時間中以合理的方式發生。
#
生成式AI
#
聲音生成
#
技術原理
2
Dino Lee
2026/04/16
人工智慧如何生成聲音 第一章_為什麼要從人工智慧的角度理解聲音生成
聲音生成有一個重要的特點:聲音不是靜態的物件,而是沿著時間展開的動態結構。一段語音或音樂必須隨著時間逐步被感知。它有開始、有延續、有節奏、有轉折;它既包含瞬時的頻率結構,也包含跨越更長時間範圍的韻律與形式。生成聲音不是單純把正確的元素「放上去」就好,而是要讓這些元素在時間中以合理的方式發生。
#
生成式AI
#
聲音生成
#
技術原理
2