什麼是AI語音辨識?
所謂的「人工智慧」(Artificial Intelligence),是指以人工方式,來實現人類所具有之智慧的技術。語音辨識(speech recognition)技術,也被稱為自動語音識別(Automatic Speech Recognition, ASR),可以透過電腦將人的語音內容自動轉換成文字,而這項技術早在1970年代就已被研究,但沒有被普及使用,直到蘋果iPhone 4S手機上市,它結合了人工智慧助理Siri,也帶動了許多美國企業相繼推出語音助理,例如:亞馬遜Alexa、LINE的Clova、微軟的Cortana以及谷歌的Google Now。
AI語音被應用在哪些地方?
語音辨識主要的應用概念是訓練一個AI模型,去偵測聲音並傳遞文字訊息,或將語意理解後轉成命令來控制智慧裝置,讓我們的生活變得更加便利,目前有許多大企業看好語音辨識的應用市場,都想投入這塊領域。現在AI語音辨識功能已普遍用在智慧音箱、電視、保險業、急救市場以及客服、文書、會議記錄等不同的領域,滿足個人消費市場與各個產業所需要的技術。
AI語音辨識導入會議紀錄
日本許多企業及公家機關為縮短文書作業時間,已經開始利用AI語音辨識功能來分析說話者內容,並自動轉化成逐字文字檔。日本電信NTT集團的NTT出版與NTT TechnoCross合作,運用雲端語音資料轉換為文書資料的深度學習人工智慧,可將30分鐘的演講在30分鐘內即時轉換為文字資料。另外還有知名電機大廠Toshiba,也開發了能做會議紀錄的系統,他們則強調逐字稿正確率可達到85%,且該系統還能夠辨識不需要的發語詞或重複字句。
AI自動產生即時逐字稿,省時又省力
台灣本土研發的企業級視訊會議平台「Lale Meet」,透過與EZ LIN-U的技術整合,實現AI會議逐字稿即時生成功能,有別於其他逐字稿系統,需要等會議結束後再將錄音檔案上傳才能產出文字,或是需要安裝額外的軟體,Lale Meet這項內建功能可在開會時,即時分析各個與會者的發言內容,再自動將聲音轉換成文字逐字稿,除了能在高品質且安全的環境下進行會議,也讓使用者可以同步進行會議紀錄,提高文書作業效率。
有許多的成功案例,都證明了 AI 人工智慧在各個領域中所存在的價值,若能將機器學習和認知互動用於傳統業務流程和應用程式,就可以大幅改善使用者體驗並提高生產力,透過科技的力量,讓我們能更輕鬆、更專注在自己的工作上。