SoundHound的Speech-to-Meaning®技術確實與傳統的語音識別方法有所不同:
所以,SoundHound的技術確實不需要先將語音完全轉換為文本,而是直接從語音信號中提取含義,這是它與傳統語音識別技術的主要區別。
傳統語音識別系統主要包括以下幾個關鍵組件:
聲學模型負責分析語音信號的聲學特徵,識別出語音中的音素或其他語音單元。它通常使用隱馬爾可夫模型(HMM)或高斯混合模型(GMM)來建模語音的聲學模式。
語言模型用於預測詞序列的概率,幫助系統選擇最可能的詞序列。它通常使用n-gram等統計方法來建模語言的結構。
發音詞典定義了單詞的音素發音方式,為每個詞提供標準發音。這通常需要語言學專家為每種語言手工製作自定義音素集。
解碼器整合聲學模型、語言模型和發音詞典的輸出,生成最終的識別結果。它通常使用維特比算法等方法來尋找最佳路徑。
特徵提取將原始音頻信號轉換為更具代表性的特徵向量,如梅爾頻率倒譜係數(MFCC)。這種傳統方法需要獨立訓練多個模型,並且嚴重依賴專家製作的發音詞典,這使得它在擴展到新語言時面臨挑戰。儘管如此,由於其成熟性和可解釋性,這種方法仍被許多系統採用。