SayIt - 開源免費的 speech to text 的工具

更新 發佈閱讀 4 分鐘


我之前有在這邊講過語音轉文字的三個工具 Handy,其中我最推薦的是 Typeless 跟 Handy。但最近有新的想法了,所以想要跟大家講一下我對這些工具的新想法,以及我目前用的一個新工具。

首先是 Handy 的部分,因為它真的太笨了,所以我決定就最後不用它了。

然後 Typeless 的部分主要有幾個原因:

1. 它最近可能是因為在開發新功能,所以有時候在使用它的語音轉換功能時,我講了一段話,它反而是用 AI 去回覆我這段話的內容。但我明明就只是想要語音轉文字這件事情而已,所以對我來講是蠻困擾的。

2. 當然有時候會爆出一堆簡體字。

3. 最後,我也會考慮之前討論過的 Typeless 隱私問題。

我最近有用的新工具是叫做 SayIt,它是由臺灣的工程師 Jackle 開發出來的,而且它是一個開源的專案(project)。大家也可以去 GitHub 看看,也可以先看我連結到他個人網站上的說明。

我稍微講一下我覺得它很棒的地方。它目前是我用過最貼近 Typeless 的免費開源工具。我覺得它很棒的地方就是:

1. 它會請你去申請一個 AI 平臺叫 Groq,使用 Groq 上面的 AI 平臺上的模型。

(a) 語音轉換模型:它是用 Whisper Large 或 Whisper Large Turbo。

(b) 文字整理模型:它可以給你用 Qwen3、Llama 跟 Kimi。

我目前的搭配是 Whisper Large 跟 Kimi。

2. AI 整理的 Prompt 也可以讓你調整,你可以選擇精簡版,或者是積極的部分。積極的部分就是像 Typeless 一樣,可以幫你列點、幫你重新改成段落。精簡版的部分就是單純幫你修一些錯字、去一些冗詞,然後補一些標點這樣而已。

它目前我覺得最好的功能就是「短文字門檻」。短文字門檻就是說,如果它從語音翻成文字之後,有文字上的限制,它如果低於某一段的字數,那它會直接貼上去,就不會再讓 AI 整理了。我個人覺得這個是非常好用的。

但是它還是有幾個小缺點:

1. 它目前預設的按鈕只能設定一個鍵。所以你只能選擇鍵盤上其中一個鍵,例如 Alt、Ctrl、Shift 或者是你自定義的鍵才用。但是 Typeless 那邊是可以用複合式的鍵,例如 Alt 加 Space 或 Ctrl 加 Alt 那種感覺。

2. 它不太能接受多語言的轉換。例如說我目前目標的語言是繁體中文,但如果我突然想要改成說日文的話,它會接受不了。它會直接用音譯的方式翻成中文,或者用翻譯的方式翻成中文。對我來講,這兩個都不是我要的,我要的就是日文,它也會有這個狀況。

3. 我剛剛才發現,它好像對於長文章的接受度有點問題,會很容易就辨識失敗。而且辨識失敗之後,你不能重來,你要重講一次。這個也算是硬傷,如果你講超過五分鐘的話就會有這個狀況。

就希望它能再多多改進,而且它是開源的,所以我也有看到有人 Fork 出去,然後去接它的 Local 模型,所以大家也多多支持。

官方網站在這邊: https://jackle.pro/tools/sayIt

留言
avatar-img
林承慶的沙龍
1會員
39內容數
林承慶的沙龍
林承慶的沙龍的其他內容
2026/03/21
湯川秀樹為日本第一位得到諾貝爾物理學獎的得主。他出生於 1907 年的東京,但在 1908 年時全家搬到京都,原因是因為他的父親小川琢治是一位地質學教授,當時前往京都帝國大學就職。他的母親小川小雪則是少數在那個時期通曉英文的女性,因此他在一個書香世家裡面成長。
Thumbnail
2026/03/21
湯川秀樹為日本第一位得到諾貝爾物理學獎的得主。他出生於 1907 年的東京,但在 1908 年時全家搬到京都,原因是因為他的父親小川琢治是一位地質學教授,當時前往京都帝國大學就職。他的母親小川小雪則是少數在那個時期通曉英文的女性,因此他在一個書香世家裡面成長。
Thumbnail
2026/03/19
本文解析Uniqlo創辦人柳井正所著的《經營者養成筆記》,從作者的親身體驗出發,闡述書中關於經營者的四大核心能力:創新者、獲利能力、領導者以及使命感。作者特別強調以客戶為中心、創造驚喜的經營哲學,以及領導者如何透過授權、傾聽與容忍來建立強大的團隊。這是一本給所有渴望成為優秀領導者與經營者的必讀之作。
Thumbnail
2026/03/19
本文解析Uniqlo創辦人柳井正所著的《經營者養成筆記》,從作者的親身體驗出發,闡述書中關於經營者的四大核心能力:創新者、獲利能力、領導者以及使命感。作者特別強調以客戶為中心、創造驚喜的經營哲學,以及領導者如何透過授權、傾聽與容忍來建立強大的團隊。這是一本給所有渴望成為優秀領導者與經營者的必讀之作。
Thumbnail
2026/03/18
本文分享對這本書的閱讀心得,特別強調作者提出的「擁有型」、「創造型」與「控制型」三種被動收入建立方式,並分析其中「控制型」的潛力。適合已熟悉相關概念的讀者,作者提供簡單易懂的分類與清單,有助於釐清被動收入的建立方向。
Thumbnail
2026/03/18
本文分享對這本書的閱讀心得,特別強調作者提出的「擁有型」、「創造型」與「控制型」三種被動收入建立方式,並分析其中「控制型」的潛力。適合已熟悉相關概念的讀者,作者提供簡單易懂的分類與清單,有助於釐清被動收入的建立方向。
Thumbnail
看更多
你可能也想看
Thumbnail
1. 主要特點 (Nano Banana Pro) 這款模型被視為 Google 在影像生成領域的重大升級,主要解決了過去 AI 繪圖的幾個痛點: 繁體中文支援度極高: 這是對台灣用戶最有感的升級。它能精準理解並在圖片中「寫出」正確的繁體中文字(例如海報、招牌文字),不再出現亂碼或缺筆畫的情況。
Thumbnail
1. 主要特點 (Nano Banana Pro) 這款模型被視為 Google 在影像生成領域的重大升級,主要解決了過去 AI 繪圖的幾個痛點: 繁體中文支援度極高: 這是對台灣用戶最有感的升級。它能精準理解並在圖片中「寫出」正確的繁體中文字(例如海報、招牌文字),不再出現亂碼或缺筆畫的情況。
Thumbnail
在 2026 年 1 月 15 日,Google 正式推出了名為 TranslateGemma 的開源翻譯模型系列。 以前如為辨識圖片中的文字,大都用所謂OCR辨識方式,處理前須對圖片用不同演算法專換後變成黑白圖,在去辨識圖中文字,步驟不可謂不繁瑣,但有了AI模型可以權值辨識文字後,開發者省了不少
Thumbnail
在 2026 年 1 月 15 日,Google 正式推出了名為 TranslateGemma 的開源翻譯模型系列。 以前如為辨識圖片中的文字,大都用所謂OCR辨識方式,處理前須對圖片用不同演算法專換後變成黑白圖,在去辨識圖中文字,步驟不可謂不繁瑣,但有了AI模型可以權值辨識文字後,開發者省了不少
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這兩年 AI 應用爆紅,許多人在提示詞中會加上:「請用自然語氣回答」、「語氣溫柔一點」。 但如果你回想幾年前的網路用語,「語氣」這個詞在台灣幾乎不常見──我們更習慣說「語調」、「口吻」、「語感」。 那麼,「語氣」究竟是傳統語言學詞,還是中國式 AI 詞彙的文化輸出?
Thumbnail
這兩年 AI 應用爆紅,許多人在提示詞中會加上:「請用自然語氣回答」、「語氣溫柔一點」。 但如果你回想幾年前的網路用語,「語氣」這個詞在台灣幾乎不常見──我們更習慣說「語調」、「口吻」、「語感」。 那麼,「語氣」究竟是傳統語言學詞,還是中國式 AI 詞彙的文化輸出?
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
DeepSeek,一家中國AI新創公司,以其低成本、高性能的大型語言模型崛起,挑戰AI晶片軍備競賽。文章比較了DeepSeek V3與其他領先模型(如GPT-4o, Gemini, Claude等)的優勢和應用場景,並展望了邊緣AI技術的未來。
Thumbnail
DeepSeek,一家中國AI新創公司,以其低成本、高性能的大型語言模型崛起,挑戰AI晶片軍備競賽。文章比較了DeepSeek V3與其他領先模型(如GPT-4o, Gemini, Claude等)的優勢和應用場景,並展望了邊緣AI技術的未來。
Thumbnail
🎲 當骰子落下,命運便已註定 🎲 👉 點此開始跑團 (DND 龍與地下城5E) https://lunatalk.ai/pages/chat/chat?roleId=0698d12e-cd71-4543-b3c5-2d8e52e78e00&inviteCode=U421MV
Thumbnail
🎲 當骰子落下,命運便已註定 🎲 👉 點此開始跑團 (DND 龍與地下城5E) https://lunatalk.ai/pages/chat/chat?roleId=0698d12e-cd71-4543-b3c5-2d8e52e78e00&inviteCode=U421MV
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
大家最近打開 Google Gemini,有沒有發現一個長得很像香蕉的奇怪選項? 別懷疑你的眼睛,這就是 Google 最新釋出、基於 Gemini 3 架構打造的圖像生成模型——Nano Banana Pro。雖然名字聽起來很惡搞(官方甚至直接用了🍌圖示),但它的實力絕對是目前業界天花板等級,
Thumbnail
大家最近打開 Google Gemini,有沒有發現一個長得很像香蕉的奇怪選項? 別懷疑你的眼睛,這就是 Google 最新釋出、基於 Gemini 3 架構打造的圖像生成模型——Nano Banana Pro。雖然名字聽起來很惡搞(官方甚至直接用了🍌圖示),但它的實力絕對是目前業界天花板等級,
Thumbnail
ITS AI是由全球最大的第三方專業認證機構 Pearson VUE / Certiport 所推出,是初階的AI能力資訊科技認證,考試共有五個章節:包含AI 問題定義、數據收集處理與工程、人工智慧演算法與模型、應用整合與部署、在生產環境中維護和監控人工智慧。楊老師是ITS官方認證講師,一起研究吧!
Thumbnail
ITS AI是由全球最大的第三方專業認證機構 Pearson VUE / Certiport 所推出,是初階的AI能力資訊科技認證,考試共有五個章節:包含AI 問題定義、數據收集處理與工程、人工智慧演算法與模型、應用整合與部署、在生產環境中維護和監控人工智慧。楊老師是ITS官方認證講師,一起研究吧!
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News