VoiceIn 廣東話語音辨識: 桌面電腦上免打字三倍速輸入文字

更新於 2024/12/20閱讀時間約 10 分鐘

抗疫期間,在家工作除了多用了 Zoom 等視像會議,其實也增加大量文字處理的工作。很多實體商戶及行業人士都嘗試轉型到網上,多了坐在桌面電腦前,寫文出 Posts 在社交平台進行推廣,以及透過網站提供服務。亦有不少公司開始運用如 Trello、Asana 等線上協作軟件,建立遙距工作團隊的項目管理系統,替代以往沒有效率的會議。

不過,對於一些習慣用言語表達,又少做文字處理的朋友,對著鍵盤也許感到犯困,尤其是要打中文字。無論你懂不懂倉頡或速成輸入法,有沒有手寫板,還是經常性執筆忘字,本文今次介紹的語音辨識工具必定能幫到你提升工作效率。


raw-image


VoiceIn 是今次要介紹的 Chrome 瀏覽器擴充功能,這是由開發 AI 語音識別筆記本 Dictanote (dictanote.co)公司發佈的產品,讓你可以使用語音識別功能在任何網站的文字框中輸入文字。相信很多朋友也都知道 Google Docs 備有語音輸入功能,可以免打字,寫文好似唱歌般輕鬆。VoiceIn 亦是使用 Google 的語音辨識 API,能支持多種不同的語言和方言,包括「廣東話」,更處理中英文可混在一起的語句。有了這個擴充功能,在其他網站上(例如 Medium)亦可一樣使用語音輸入寫稿,超方便。


廣東話語音辨識的發展情況

支持廣東話的語音辨識引擎能用稀有來形容,香港、澳門的人口就7百幾、8百多萬人,願意投資在開發廣東話語音辨識的資源可說是少之又少。科技巨頭之中,Microsoft 的智能個人助理 Cortana 及 Windows 10 的內置語音辨識只有普通話供選擇,而 AWS 的支援語言更是連中文都沒有提供 (請參考Amazon Transcibe技術文件)。據維基百科,微軟是因為香港、澳門無法提供足夠的參考數據作機械學習,令人工智能無法提供精確的回答,因此 Cortana 的廣東話服務至今仍未開放。

依我所知,現今就只得 Apple 和 Google 兩家,它們的服務包括支援廣東話。雖然 Apple iOS 11以上有提供廣東話語音輸入,但在跨系統、跨平台開發上自然是 Google 的優勝。另外,Google 語音辨識引擎 是當今最準確、支持最多語言和方言的語音轉文本技術。安裝了 VoiceIn,就相當於可在任何一部電腦上,不論 Windows、Mac、Linux 上,都使用與 Android 手機一樣的語音辨識引擎來輔助打字。


如何安裝 VoiceIn 語音輸入

raw-image

硬體:要使用 VoiceIn 首要條件是你的電腦裝置配備音訊輸入的麥克風(Microphone),一般手機提電腦都已有內置 Mic,你也可以考慮連接藍芽免提。如果連接有線 Mic 請注意你的 3.5 mm 插頭是 2 環 3 節,還是 3 環 4 節,因為不是所在電腦硬件都兼容兩種。前者一般是使用於傳統分孔插耳機和 Mic 的電腦底板上,後者則普遍是單孔插的連 Mic 手機耳機。

軟體:你必需使用 Chrome 瀏覽器。Dictanote 並不支援其他瀏覽器,例如 Firefox。到訪 Chrome 線上應用程式商店搜尋 VoiceIn,或者 點擊此連結 開啟 VoiceIn 擴充功能的下載頁。


VoiceIn — Chrome 線上應用程式商店

VoiceIn — Chrome 線上應用程式商店


進入如上圖頁面之後,按「加到 Chrome」下載安裝。此時會彈出確認的對話框,如下:


確認新增「VoiceIn」的彈出對話框

確認新增「VoiceIn」的彈出對話框


按下「新增擴充功能」,基本上馬上就會安裝完畢,在 Chrome 的右上角新增一個錄音圖示的 icon,以及彈出以下提示框。


已將「VoiceIn」加到 Chrome 的彈出提示框

已將「VoiceIn」加到 Chrome 的彈出提示框


右擊 VoiceIn 的圖示,然後點「選項」開啟設定頁面。初次設定,你需要授予 VoiceIn 使用麥克風的權限。若成功權限,綠色方塊中的文字會從「Allow microphone access」變成「Permission Granted」。


raw-image


預設的聽寫語言為 英語 (美國),在 Select your dictation language 切換至你使用的語言,例如 廣東話 (香港)

VoiceIn 免費版就只得「語言」這個選項,可供設定。其他的 進階選項及自訂功能都必需付費升級,才能解鎖使用。



如何使用及設定

開始聽寫的方法有兩種:

其一是,按 Chrome 右上的擴展功能列中的 VoiceIn 圖示。當其圖示亮起紅色,VoiceIn 會在背景持續運作一段時間,你就可以透過語音辨識以鍵盤打字的三倍速輸入文字了。再次按紅色的 VoiceIn 圖示,就會停止語言輸入。


在 Gmail 上實測用 VoiceIn 廣東話語音撰寫電郵

在 Gmail 上實測用 VoiceIn 廣東話語音撰寫電郵


其二是,將滑鼠移動至在文本框內,然後右擊,從彈出菜單中選擇「Start recording」,


選擇在右擊菜單中「Start recording」啟動 VoiceIn

選擇在右擊菜單中「Start recording」啟動 VoiceIn


第二種方法,特別適用於沒有顯示擴展功能列的彈出視窗上使用。


VoiceIn 的快速設罝按鈕

VoiceIn 的快速設罝按鈕


當 VoiceIn 正在啟用時,畫面中右上角亦會新增一枚按鈕,並在其下方以英文顯示現時正在聽寫的語言。點擊它會彈出 VoiceIn 快速設置的浮動菜單。

切換語言之後,建議先按一次 VoiceIn 圖示停止功能,再按一次重啟語言輸入。


在 VoiceIn 快速設置的浮動菜單,切換語言選擇

在 VoiceIn 快速設置的浮動菜單,切換語言選擇


VoiceIn 預設的快速鍵是 Ctrl + Shift + 9。不過我發現對於倉頡、速成輸入法的使用者來說有些不方便,因為在 Windows 使用鍵盤按下 Ctrl + Shift + 9 會輸出中文的直角開引號 (「)。因此,我建議你自訂 VoiceIn 的快速鍵。在 Chrome 的位置列輸入 chrome://extensions/shortcuts ,開啟 Chrome 擴充功能 > 鍵盤快速鍵頁面,然後在 VoiceIn 「啟用擴充功能」右側的自訂欄位按下你喜歡的按鍵組合,例如 Alt + H 鍵。選擇這個是因為 Windows 10 內置語音辨認的快速鍵是 Win + H 鍵,我認為比較易記入腦,假如將來 Microsoft 都推出對廣東話的支援,也不太需要大改按鍵習慣,容易適應。


在 Chrome 自訂 VoiceIn 的啟用快速鍵

在 Chrome 自訂 VoiceIn 的啟用快速鍵



實際使用時,VoiceIn 可能出現的問題

話雖可在任何網站上使用 VoiceIn,但 它的技術文件中 有提到並非所有網站都可以直接使用語音輸入。根據說明文件及本人實測,有以下網站不能使用 VoiceIn:

VoiceIn 不能支援的線上服務

VoiceIn 不能支援的線上服務

  • Google Doc
  • Microsoft Word Online
  • Microsoft OneNote Online
  • Instagram
  • Airtable
  • Dropbox Paper
  • Notion
  • Carousell


通過實測,VoiceIn 適用於網站:

VoiceIn 能夠支援的線上服務

VoiceIn 能夠支援的線上服務

  • Gmail
  • Outlook.com
  • Medium
  • WordPress
  • Facebook 創作者工作坊
  • Twitter
  • YouTube
  • LinkedIn
  • Amazon
  • Evernote Online
  • Google Keep
  • Google 日曆
  • Google 翻譯
  • Trello
  • GitHub
  • Grammarly


VoiceIn 語音輸入會出現不穩定的網站:

raw-image
  • Facebook
  • Whatsapp Web
  • Facebook Messenger
  • Tumblr


要在 Facebook 和一些特定網站上進行聽寫,發文前會需要先按「空白鍵」然後才能正常使用語音輸入,這一點需特別注意。至於 WordPress 後台的實測,我使用了現時最新版本的 WordPress 5.4.1,在它的 Gutenberg Editor 上編輯,結果表示 VoiceIn 成功在內文方塊上輸入文字,但在文章標題的欄位就出現問題。成因在於網頁背後採用的 HTML 編碼,由於太過技術性,在此就不詳解了。

面對那些不能正常輸入的網站,VoiceIn 採取的解決方法是,在付費的專業版中提供一個叫 Dictation box 的文字框,讓你在那兒語音輸入之後,將文字複製到剪貼簿,之後隨你「貼上」到網頁的表格/輸入框。



小結

使用 VoiceIn 令文字輸入變得輕而易舉,您可以比打字更快地編寫內容。可以輕鬆鍵入自己的筆記,快速,準確的聽寫和轉錄,使工作更聰明,更高效記下它。聽寫一封電子郵件, 創建會議記錄,記下待辦事項清單,或者只是描述眼前情景,速記您想要的文字保留的任何東西。

方便使用語音輸入,算是在家工作的一個好處。因為你可以閉在房裏,一個人對著電腦自言自語。如果在辦公室,與同事一起,用語音輸入可成為令人分心的噪音,也會出現聲音互相干擾降低辨識的準確度。


Dictanote 免費及專業計劃

Dictanote 免費及專業計劃


除了即使的語音輸入功能,該開發公司的 Dictanote 產品更可以自動將音頻文件轉換為文本,專業版為每月 $3 美元,只要這個價位就可為您處理錄音的服務,算是相當實惠。


不過,還是要多得有 Google 的人工智能,及其語音辨識引擎的雲端服務。 Thanks, Google 大神!


如果您喜歡這篇文章,請分享至你的 Facebook 及 Twitter。假如您有任何疑問或建議,歡迎標註留言或透過 Facebook 專頁 聯繫我 🙂

avatar-img
0會員
6內容數
📝 集中分享提升生產力、自動化至開發等技能 📢📈 博客及開發人員,於香港理工大學 MPhil 畢業,並多年在大學從事學術研究,喜歡學習多元化知識和技術。歡迎訂閱・標註回應,共享交流啟發性話題 🐱‍🏍
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
Chris Fung 的沙龍 的其他內容
解決 Windows 版 iCloud 15 無法關機問題的簡單方法,通過設置關機指令碼來自動結束 iCloud 進程。提供了詳細的操作步驟,包括如何開啟本機群組原則編輯器、設置關機指令碼,以及建立和執行 PowerShell 腳本。
Diigo 和 Raindrop.io 都是線上書籤管理服務,讓你儲存、分類、標註、分享和搜尋網頁。它們有一些共同之之處,例如瀏覽器擴充功能、標籤系統、搜尋欄和協作空間,但也有不同的特色和優缺點。這一次,我想分享為什麼從 Diigo 轉到了 Raindrop,希望對大家選擇個人知識管理工具有所啟發。
介紹如何解決 Crucial Storage Executive 無法開啟的情況,在運行時出現啟動畫面,卻一直等待也無法進入應用程式。您可以在本文找到修理 Java 元件配置的步驟,讓應用程式能夠順利啟動,以診斷及最佳化 Crucial SSD 的性能、進行 SSD 韌體更新及啟用快取等功能。
香港大學科斯產權研究中心7月26日發表「增闢新土地的長遠機制與策略報告」,建議將填平船灣淡水湖,預計可提借1,200公頃土地,興建30萬個住宅單位,能為香港舒緩土地供應不足的問題。本人持反對意見,不過與網上普遍的批評有不同的觀點。
探討 2017 年播放的 TVB 真人騷《有樓萬事足》節目之社會現象 ~ 1. 真的是要有樓先得嗎? 2. 兩種截然不同的「港女」:「黃金盛女」vs「105% 姐」的小故事 3. 買樓改變命運?唔買樓就蠢?~ 在香港這個高地價的地方,背負著「樓奴」的命運之挑戰與反思。
解決 Windows 版 iCloud 15 無法關機問題的簡單方法,通過設置關機指令碼來自動結束 iCloud 進程。提供了詳細的操作步驟,包括如何開啟本機群組原則編輯器、設置關機指令碼,以及建立和執行 PowerShell 腳本。
Diigo 和 Raindrop.io 都是線上書籤管理服務,讓你儲存、分類、標註、分享和搜尋網頁。它們有一些共同之之處,例如瀏覽器擴充功能、標籤系統、搜尋欄和協作空間,但也有不同的特色和優缺點。這一次,我想分享為什麼從 Diigo 轉到了 Raindrop,希望對大家選擇個人知識管理工具有所啟發。
介紹如何解決 Crucial Storage Executive 無法開啟的情況,在運行時出現啟動畫面,卻一直等待也無法進入應用程式。您可以在本文找到修理 Java 元件配置的步驟,讓應用程式能夠順利啟動,以診斷及最佳化 Crucial SSD 的性能、進行 SSD 韌體更新及啟用快取等功能。
香港大學科斯產權研究中心7月26日發表「增闢新土地的長遠機制與策略報告」,建議將填平船灣淡水湖,預計可提借1,200公頃土地,興建30萬個住宅單位,能為香港舒緩土地供應不足的問題。本人持反對意見,不過與網上普遍的批評有不同的觀點。
探討 2017 年播放的 TVB 真人騷《有樓萬事足》節目之社會現象 ~ 1. 真的是要有樓先得嗎? 2. 兩種截然不同的「港女」:「黃金盛女」vs「105% 姐」的小故事 3. 買樓改變命運?唔買樓就蠢?~ 在香港這個高地價的地方,背負著「樓奴」的命運之挑戰與反思。
你可能也想看
Google News 追蹤
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
要做會議記錄或課程筆記,想做逐字稿卻苦於打字速度不夠快嗎?錄音再慢慢回放浪費時間又容易恍神?這篇文章包你滿意,不用再浪費時間爬文了,你需要的逐字稿神器在這裡,保母級教學!
Thumbnail
網址:https://gadget.chienwen.net/x/text/articlecut 這個網頁裡面有許多小工具, 但感覺現在有很多被 AI 取代掉的東西, 推薦大家可以來用看看~
Thumbnail
我們前面幾篇已經講完TTS技術的一大半架構了,知道了如何將聲學特徵重建回音訊波形,也從中可以知道要是聲學特徵不完善,最終取得的結果也會不自然,剩下要探討該如何將文字轉換成聲學特徵,且能夠自然地表現停頓及細節變化,讓我們開始吧。
Thumbnail
AnyText是一款先進的圖像AI工具,利用深度學習技術,根據你輸入的文字描述生成圖像,更棒的是,它能生成繁體中文,而且能指定文字生成的位置。
Thumbnail
在數字化時代,PDF文件廣泛使用,但傳統處理方式顯得力不從心。本文推薦pdftopdf.ai等工具,通過OCR識別,將圖片中的文字轉化為可編輯、可搜索的文本。探討PDF文檔分析的AI工具,功能和價格。描述其用途以解決掃描件中文字無法直接搜索的困擾,提高工作效率。
Thumbnail
作為1980年代就用過「電子打字機」(回老家找一下說不定還在)和日系文書處理機的老用戶,我認為FreeWrite這類產品要做出來、或是有基本的打字功能完全不是問題,最大的問題在於內容的編輯。
Thumbnail
學習如何將掃描的PDF轉換為可搜索文本,並高效管理和查找文件。探索先進的OCR技術如何提升文檔處理效率。
Thumbnail
這是一個簡單的工作流,可以對輸入的圖片進行3D重建
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
要做會議記錄或課程筆記,想做逐字稿卻苦於打字速度不夠快嗎?錄音再慢慢回放浪費時間又容易恍神?這篇文章包你滿意,不用再浪費時間爬文了,你需要的逐字稿神器在這裡,保母級教學!
Thumbnail
網址:https://gadget.chienwen.net/x/text/articlecut 這個網頁裡面有許多小工具, 但感覺現在有很多被 AI 取代掉的東西, 推薦大家可以來用看看~
Thumbnail
我們前面幾篇已經講完TTS技術的一大半架構了,知道了如何將聲學特徵重建回音訊波形,也從中可以知道要是聲學特徵不完善,最終取得的結果也會不自然,剩下要探討該如何將文字轉換成聲學特徵,且能夠自然地表現停頓及細節變化,讓我們開始吧。
Thumbnail
AnyText是一款先進的圖像AI工具,利用深度學習技術,根據你輸入的文字描述生成圖像,更棒的是,它能生成繁體中文,而且能指定文字生成的位置。
Thumbnail
在數字化時代,PDF文件廣泛使用,但傳統處理方式顯得力不從心。本文推薦pdftopdf.ai等工具,通過OCR識別,將圖片中的文字轉化為可編輯、可搜索的文本。探討PDF文檔分析的AI工具,功能和價格。描述其用途以解決掃描件中文字無法直接搜索的困擾,提高工作效率。
Thumbnail
作為1980年代就用過「電子打字機」(回老家找一下說不定還在)和日系文書處理機的老用戶,我認為FreeWrite這類產品要做出來、或是有基本的打字功能完全不是問題,最大的問題在於內容的編輯。
Thumbnail
學習如何將掃描的PDF轉換為可搜索文本,並高效管理和查找文件。探索先進的OCR技術如何提升文檔處理效率。
Thumbnail
這是一個簡單的工作流,可以對輸入的圖片進行3D重建