抗疫期間,在家工作除了多用了 Zoom 等視像會議,其實也增加大量文字處理的工作。很多實體商戶及行業人士都嘗試轉型到網上,多了坐在桌面電腦前,寫文出 Posts 在社交平台進行推廣,以及透過網站提供服務。亦有不少公司開始運用如 Trello、Asana 等線上協作軟件,建立遙距工作團隊的項目管理系統,替代以往沒有效率的會議。
不過,對於一些習慣用言語表達,又少做文字處理的朋友,對著鍵盤也許感到犯困,尤其是要打中文字。無論你懂不懂倉頡或速成輸入法,有沒有手寫板,還是經常性執筆忘字,本文今次介紹的語音辨識工具必定能幫到你提升工作效率。
VoiceIn 是今次要介紹的 Chrome 瀏覽器擴充功能,這是由開發 AI 語音識別筆記本 Dictanote (dictanote.co)公司發佈的產品,讓你可以使用語音識別功能在任何網站的文字框中輸入文字。相信很多朋友也都知道 Google Docs 備有語音輸入功能,可以免打字,寫文好似唱歌般輕鬆。VoiceIn 亦是使用 Google 的語音辨識 API,能支持多種不同的語言和方言,包括「廣東話」,更處理中英文可混在一起的語句。有了這個擴充功能,在其他網站上(例如 Medium)亦可一樣使用語音輸入寫稿,超方便。
支持廣東話的語音辨識引擎能用稀有來形容,香港、澳門的人口就7百幾、8百多萬人,願意投資在開發廣東話語音辨識的資源可說是少之又少。科技巨頭之中,Microsoft 的智能個人助理 Cortana 及 Windows 10 的內置語音辨識只有普通話供選擇,而 AWS 的支援語言更是連中文都沒有提供 (請參考Amazon Transcibe技術文件)。據維基百科,微軟是因為香港、澳門無法提供足夠的參考數據作機械學習,令人工智能無法提供精確的回答,因此 Cortana 的廣東話服務至今仍未開放。
依我所知,現今就只得 Apple 和 Google 兩家,它們的服務包括支援廣東話。雖然 Apple iOS 11以上有提供廣東話語音輸入,但在跨系統、跨平台開發上自然是 Google 的優勝。另外,Google 語音辨識引擎 是當今最準確、支持最多語言和方言的語音轉文本技術。安裝了 VoiceIn,就相當於可在任何一部電腦上,不論 Windows、Mac、Linux 上,都使用與 Android 手機一樣的語音辨識引擎來輔助打字。
硬體:要使用 VoiceIn 首要條件是你的電腦裝置配備音訊輸入的麥克風(Microphone),一般手機提電腦都已有內置 Mic,你也可以考慮連接藍芽免提。如果連接有線 Mic 請注意你的 3.5 mm 插頭是 2 環 3 節,還是 3 環 4 節,因為不是所在電腦硬件都兼容兩種。前者一般是使用於傳統分孔插耳機和 Mic 的電腦底板上,後者則普遍是單孔插的連 Mic 手機耳機。
軟體:你必需使用 Chrome 瀏覽器。Dictanote 並不支援其他瀏覽器,例如 Firefox。到訪 Chrome 線上應用程式商店搜尋 VoiceIn,或者 點擊此連結 開啟 VoiceIn 擴充功能的下載頁。
進入如上圖頁面之後,按「加到 Chrome」下載安裝。此時會彈出確認的對話框,如下:
按下「新增擴充功能」,基本上馬上就會安裝完畢,在 Chrome 的右上角新增一個錄音圖示的 icon,以及彈出以下提示框。
右擊 VoiceIn 的圖示,然後點「選項」開啟設定頁面。初次設定,你需要授予 VoiceIn 使用麥克風的權限。若成功權限,綠色方塊中的文字會從「Allow microphone access」變成「Permission Granted」。
預設的聽寫語言為 英語 (美國),在 Select your dictation language 切換至你使用的語言,例如 廣東話 (香港)。
VoiceIn 免費版就只得「語言」這個選項,可供設定。其他的 進階選項及自訂功能都必需付費升級,才能解鎖使用。
開始聽寫的方法有兩種:
其一是,按 Chrome 右上的擴展功能列中的 VoiceIn 圖示。當其圖示亮起紅色,VoiceIn 會在背景持續運作一段時間,你就可以透過語音辨識以鍵盤打字的三倍速輸入文字了。再次按紅色的 VoiceIn 圖示,就會停止語言輸入。
其二是,將滑鼠移動至在文本框內,然後右擊,從彈出菜單中選擇「Start recording」,
第二種方法,特別適用於沒有顯示擴展功能列的彈出視窗上使用。
當 VoiceIn 正在啟用時,畫面中右上角亦會新增一枚按鈕,並在其下方以英文顯示現時正在聽寫的語言。點擊它會彈出 VoiceIn 快速設置的浮動菜單。
切換語言之後,建議先按一次 VoiceIn 圖示停止功能,再按一次重啟語言輸入。
VoiceIn 預設的快速鍵是 Ctrl
+ Shift
+ 9
。不過我發現對於倉頡、速成輸入法的使用者來說有些不方便,因為在 Windows 使用鍵盤按下 Ctrl
+ Shift
+ 9
會輸出中文的直角開引號 (「)。因此,我建議你自訂 VoiceIn 的快速鍵。在 Chrome 的位置列輸入 chrome://extensions/shortcuts
,開啟 Chrome 擴充功能 > 鍵盤快速鍵頁面,然後在 VoiceIn 「啟用擴充功能」右側的自訂欄位按下你喜歡的按鍵組合,例如 Alt
+ H
鍵。選擇這個是因為 Windows 10 內置語音辨認的快速鍵是 Win
+ H
鍵,我認為比較易記入腦,假如將來 Microsoft 都推出對廣東話的支援,也不太需要大改按鍵習慣,容易適應。
話雖可在任何網站上使用 VoiceIn,但 它的技術文件中 有提到並非所有網站都可以直接使用語音輸入。根據說明文件及本人實測,有以下網站不能使用 VoiceIn:
通過實測,VoiceIn 適用於網站:
VoiceIn 語音輸入會出現不穩定的網站:
要在 Facebook 和一些特定網站上進行聽寫,發文前會需要先按「空白鍵」然後才能正常使用語音輸入,這一點需特別注意。至於 WordPress 後台的實測,我使用了現時最新版本的 WordPress 5.4.1,在它的 Gutenberg Editor 上編輯,結果表示 VoiceIn 成功在內文方塊上輸入文字,但在文章標題的欄位就出現問題。成因在於網頁背後採用的 HTML 編碼,由於太過技術性,在此就不詳解了。
面對那些不能正常輸入的網站,VoiceIn 採取的解決方法是,在付費的專業版中提供一個叫 Dictation box 的文字框,讓你在那兒語音輸入之後,將文字複製到剪貼簿,之後隨你「貼上」到網頁的表格/輸入框。
使用 VoiceIn 令文字輸入變得輕而易舉,您可以比打字更快地編寫內容。可以輕鬆鍵入自己的筆記,快速,準確的聽寫和轉錄,使工作更聰明,更高效記下它。聽寫一封電子郵件, 創建會議記錄,記下待辦事項清單,或者只是描述眼前情景,速記您想要的文字保留的任何東西。
方便使用語音輸入,算是在家工作的一個好處。因為你可以閉在房裏,一個人對著電腦自言自語。如果在辦公室,與同事一起,用語音輸入可成為令人分心的噪音,也會出現聲音互相干擾降低辨識的準確度。
除了即使的語音輸入功能,該開發公司的 Dictanote 產品更可以自動將音頻文件轉換為文本,專業版為每月 $3 美元,只要這個價位就可為您處理錄音的服務,算是相當實惠。
不過,還是要多得有 Google 的人工智能,及其語音辨識引擎的雲端服務。 Thanks, Google 大神!
如果您喜歡這篇文章,請分享至你的 Facebook 及 Twitter。假如您有任何疑問或建議,歡迎標註留言或透過 Facebook 專頁 聯繫我 🙂