AI原理書房

3免費公開
這是一間通往人工智慧知識核心的書房。從機器學習、深度學習到生成式 AI,這裡將持續收納我對 AI 基本原理的系統書寫,陪你一步一步理解AI技術如何生成新的世界。
全部類型
免費與付費
最新發佈
最新發佈
avatar-avatar
Dino Lee
2026/04/17
機器究竟是如何「理解」聲音的?對人類而言,這個問題似乎不難。我們能分辨一句話說了什麼、是誰在說、語氣是否緊張、背景是否嘈雜。然而,對機器而言,輸入只是一串隨時間變化的數值。機器並不天然知道音高、音色、語速、情緒或語意,它只能透過某種表徵方式,把原始訊號轉換成對任務有用的形式。
Thumbnail
avatar-avatar
Dino Lee
2026/04/17
機器究竟是如何「理解」聲音的?對人類而言,這個問題似乎不難。我們能分辨一句話說了什麼、是誰在說、語氣是否緊張、背景是否嘈雜。然而,對機器而言,輸入只是一串隨時間變化的數值。機器並不天然知道音高、音色、語速、情緒或語意,它只能透過某種表徵方式,把原始訊號轉換成對任務有用的形式。
Thumbnail
avatar-avatar
Dino Lee
2026/04/16
AI 並不是直接理解「聲音」,而是理解某種表徵。模型實際接觸到的,可能是原始波形,也可能是頻譜圖、Mel 頻譜圖、MFCC,或離散音訊 token。每一種表徵都不是單純的格式差異,而是對聲音資訊的一種重組與取捨。表徵選擇得不同,模型所面對的學習問題就會不同,系統的優勢與限制也會跟著改變。
Thumbnail
avatar-avatar
Dino Lee
2026/04/16
AI 並不是直接理解「聲音」,而是理解某種表徵。模型實際接觸到的,可能是原始波形,也可能是頻譜圖、Mel 頻譜圖、MFCC,或離散音訊 token。每一種表徵都不是單純的格式差異,而是對聲音資訊的一種重組與取捨。表徵選擇得不同,模型所面對的學習問題就會不同,系統的優勢與限制也會跟著改變。
Thumbnail
avatar-avatar
Dino Lee
2026/04/16
聲音生成有一個重要的特點:聲音不是靜態的物件,而是沿著時間展開的動態結構。一段語音或音樂必須隨著時間逐步被感知。它有開始、有延續、有節奏、有轉折;它既包含瞬時的頻率結構,也包含跨越更長時間範圍的韻律與形式。生成聲音不是單純把正確的元素「放上去」就好,而是要讓這些元素在時間中以合理的方式發生。
Thumbnail
avatar-avatar
Dino Lee
2026/04/16
聲音生成有一個重要的特點:聲音不是靜態的物件,而是沿著時間展開的動態結構。一段語音或音樂必須隨著時間逐步被感知。它有開始、有延續、有節奏、有轉折;它既包含瞬時的頻率結構,也包含跨越更長時間範圍的韻律與形式。生成聲音不是單純把正確的元素「放上去」就好,而是要讓這些元素在時間中以合理的方式發生。
Thumbnail
全部類型
免費與付費
最新發佈
最新發佈
avatar-avatar
Dino Lee
2026/04/17
機器究竟是如何「理解」聲音的?對人類而言,這個問題似乎不難。我們能分辨一句話說了什麼、是誰在說、語氣是否緊張、背景是否嘈雜。然而,對機器而言,輸入只是一串隨時間變化的數值。機器並不天然知道音高、音色、語速、情緒或語意,它只能透過某種表徵方式,把原始訊號轉換成對任務有用的形式。
Thumbnail
avatar-avatar
Dino Lee
2026/04/17
機器究竟是如何「理解」聲音的?對人類而言,這個問題似乎不難。我們能分辨一句話說了什麼、是誰在說、語氣是否緊張、背景是否嘈雜。然而,對機器而言,輸入只是一串隨時間變化的數值。機器並不天然知道音高、音色、語速、情緒或語意,它只能透過某種表徵方式,把原始訊號轉換成對任務有用的形式。
Thumbnail
avatar-avatar
Dino Lee
2026/04/16
AI 並不是直接理解「聲音」,而是理解某種表徵。模型實際接觸到的,可能是原始波形,也可能是頻譜圖、Mel 頻譜圖、MFCC,或離散音訊 token。每一種表徵都不是單純的格式差異,而是對聲音資訊的一種重組與取捨。表徵選擇得不同,模型所面對的學習問題就會不同,系統的優勢與限制也會跟著改變。
Thumbnail
avatar-avatar
Dino Lee
2026/04/16
AI 並不是直接理解「聲音」,而是理解某種表徵。模型實際接觸到的,可能是原始波形,也可能是頻譜圖、Mel 頻譜圖、MFCC,或離散音訊 token。每一種表徵都不是單純的格式差異,而是對聲音資訊的一種重組與取捨。表徵選擇得不同,模型所面對的學習問題就會不同,系統的優勢與限制也會跟著改變。
Thumbnail
avatar-avatar
Dino Lee
2026/04/16
聲音生成有一個重要的特點:聲音不是靜態的物件,而是沿著時間展開的動態結構。一段語音或音樂必須隨著時間逐步被感知。它有開始、有延續、有節奏、有轉折;它既包含瞬時的頻率結構,也包含跨越更長時間範圍的韻律與形式。生成聲音不是單純把正確的元素「放上去」就好,而是要讓這些元素在時間中以合理的方式發生。
Thumbnail
avatar-avatar
Dino Lee
2026/04/16
聲音生成有一個重要的特點:聲音不是靜態的物件,而是沿著時間展開的動態結構。一段語音或音樂必須隨著時間逐步被感知。它有開始、有延續、有節奏、有轉折;它既包含瞬時的頻率結構,也包含跨越更長時間範圍的韻律與形式。生成聲音不是單純把正確的元素「放上去」就好,而是要讓這些元素在時間中以合理的方式發生。
Thumbnail