SayIt - 開源的 speech to text 的工具

更新 發佈閱讀 4 分鐘


我之前有在這邊講過語音轉文字的三個工具 Handy,其中我最推薦的是 Typeless 跟 Handy。但最近有新的想法了,所以想要跟大家講一下我對這些工具的新想法,以及我目前用的一個新工具。

首先是 Handy 的部分,因為它真的太笨了,所以我決定就最後不用它了。

然後 Typeless 的部分主要有幾個原因:

1. 它最近可能是因為在開發新功能,所以有時候在使用它的語音轉換功能時,我講了一段話,它反而是用 AI 去回覆我這段話的內容。但我明明就只是想要語音轉文字這件事情而已,所以對我來講是蠻困擾的。

2. 當然有時候會爆出一堆簡體字。

3. 最後,我也會考慮之前討論過的 Typeless 隱私問題。

我最近有用的新工具是叫做 SayIt,它是由臺灣的工程師 Jackle 開發出來的,而且它是一個開源的專案(project)。大家也可以去 GitHub 看看,也可以先看我連結到他個人網站上的說明。

我稍微講一下我覺得它很棒的地方。它目前是我用過最貼近 Typeless 的免費開源工具。我覺得它很棒的地方就是:

1. 它會請你去申請一個 AI 平臺叫 Groq,使用 Groq 上面的 AI 平臺上的模型。

(a) 語音轉換模型:它是用 Whisper Large 或 Whisper Large Turbo。

(b) 文字整理模型:它可以給你用 Qwen3、Llama 跟 Kimi。

我目前的搭配是 Whisper Large 跟 Kimi。

2. AI 整理的 Prompt 也可以讓你調整,你可以選擇精簡版,或者是積極的部分。積極的部分就是像 Typeless 一樣,可以幫你列點、幫你重新改成段落。精簡版的部分就是單純幫你修一些錯字、去一些冗詞,然後補一些標點這樣而已。

它目前我覺得最好的功能就是「短文字門檻」。短文字門檻就是說,如果它從語音翻成文字之後,有文字上的限制,它如果低於某一段的字數,那它會直接貼上去,就不會再讓 AI 整理了。我個人覺得這個是非常好用的。

但是它還是有幾個小缺點:

1. 它目前預設的按鈕只能設定一個鍵。所以你只能選擇鍵盤上其中一個鍵,例如 Alt、Ctrl、Shift 或者是你自定義的鍵才用。但是 Typeless 那邊是可以用複合式的鍵,例如 Alt 加 Space 或 Ctrl 加 Alt 那種感覺。

2. 它不太能接受多語言的轉換。例如說我目前目標的語言是繁體中文,但如果我突然想要改成說日文的話,它會接受不了。它會直接用音譯的方式翻成中文,或者用翻譯的方式翻成中文。對我來講,這兩個都不是我要的,我要的就是日文,它也會有這個狀況。

3. 我剛剛才發現,它好像對於長文章的接受度有點問題,會很容易就辨識失敗。而且辨識失敗之後,你不能重來,你要重講一次。這個也算是硬傷,如果你講超過五分鐘的話就會有這個狀況。

就希望它能再多多改進,而且它是開源的,所以我也有看到有人 Fork 出去,然後去接它的 Local 模型,所以大家也多多支持。

官方網站在這邊: https://jackle.pro/tools/sayIt

留言
avatar-img
林承慶的沙龍
1會員
33內容數
林承慶的沙龍
林承慶的沙龍的其他內容
2026/03/21
湯川秀樹為日本第一位得到諾貝爾物理學獎的得主。他出生於 1907 年的東京,但在 1908 年時全家搬到京都,原因是因為他的父親小川琢治是一位地質學教授,當時前往京都帝國大學就職。他的母親小川小雪則是少數在那個時期通曉英文的女性,因此他在一個書香世家裡面成長。
Thumbnail
2026/03/21
湯川秀樹為日本第一位得到諾貝爾物理學獎的得主。他出生於 1907 年的東京,但在 1908 年時全家搬到京都,原因是因為他的父親小川琢治是一位地質學教授,當時前往京都帝國大學就職。他的母親小川小雪則是少數在那個時期通曉英文的女性,因此他在一個書香世家裡面成長。
Thumbnail
2026/03/19
本文解析Uniqlo創辦人柳井正所著的《經營者養成筆記》,從作者的親身體驗出發,闡述書中關於經營者的四大核心能力:創新者、獲利能力、領導者以及使命感。作者特別強調以客戶為中心、創造驚喜的經營哲學,以及領導者如何透過授權、傾聽與容忍來建立強大的團隊。這是一本給所有渴望成為優秀領導者與經營者的必讀之作。
Thumbnail
2026/03/19
本文解析Uniqlo創辦人柳井正所著的《經營者養成筆記》,從作者的親身體驗出發,闡述書中關於經營者的四大核心能力:創新者、獲利能力、領導者以及使命感。作者特別強調以客戶為中心、創造驚喜的經營哲學,以及領導者如何透過授權、傾聽與容忍來建立強大的團隊。這是一本給所有渴望成為優秀領導者與經營者的必讀之作。
Thumbnail
2026/03/18
本文分享對這本書的閱讀心得,特別強調作者提出的「擁有型」、「創造型」與「控制型」三種被動收入建立方式,並分析其中「控制型」的潛力。適合已熟悉相關概念的讀者,作者提供簡單易懂的分類與清單,有助於釐清被動收入的建立方向。
Thumbnail
2026/03/18
本文分享對這本書的閱讀心得,特別強調作者提出的「擁有型」、「創造型」與「控制型」三種被動收入建立方式,並分析其中「控制型」的潛力。適合已熟悉相關概念的讀者,作者提供簡單易懂的分類與清單,有助於釐清被動收入的建立方向。
Thumbnail
看更多
你可能也想看
Thumbnail
債券投資,不只是高資產族群的遊戲 在傳統的投資觀念中,海外債券(Overseas Bonds)常被貼上「高資產族群專屬」的標籤。過去動輒 1 萬甚至 10 萬美元的最低申購門檻,讓許多想尋求穩定配息的小資族望而卻步。 然而,在股市波動劇烈的環境下,尋求穩定的美元現金流與被動收入成為許多投資人
Thumbnail
債券投資,不只是高資產族群的遊戲 在傳統的投資觀念中,海外債券(Overseas Bonds)常被貼上「高資產族群專屬」的標籤。過去動輒 1 萬甚至 10 萬美元的最低申購門檻,讓許多想尋求穩定配息的小資族望而卻步。 然而,在股市波動劇烈的環境下,尋求穩定的美元現金流與被動收入成為許多投資人
Thumbnail
透過川普的近期債券交易揭露,探討債券作為資產配置中「穩定磐石」的重要性。文章分析降息對債券的潛在影響,以及股神巴菲特的操作策略。並介紹玉山證券「小額債」平臺,如何讓小資族也能低門檻參與海外債券市場,實現「低門檻、低波動、固定收益」的務實投資方式。
Thumbnail
透過川普的近期債券交易揭露,探討債券作為資產配置中「穩定磐石」的重要性。文章分析降息對債券的潛在影響,以及股神巴菲特的操作策略。並介紹玉山證券「小額債」平臺,如何讓小資族也能低門檻參與海外債券市場,實現「低門檻、低波動、固定收益」的務實投資方式。
Thumbnail
解析「債券」如何成為資產配置中的穩定錨,提供低風險高回報的投資選項。 藉由玉山證券的低門檻債券服務,投資者可輕鬆入手,平衡風險並穩定財務。
Thumbnail
解析「債券」如何成為資產配置中的穩定錨,提供低風險高回報的投資選項。 藉由玉山證券的低門檻債券服務,投資者可輕鬆入手,平衡風險並穩定財務。
Thumbnail
相較於波動較大的股票,債券能提供固定現金流,而玉山證券推出的小額債,更以1000 美元的低門檻,讓學生與新手也能參與全球優質企業債投資。玉山E-Trader平台即時報價、條件式篩選與清楚的交易流程等特色,大幅降低投資難度,對於希望分散風險、建立穩定現金流的人來說,玉山小額債是一個值得嘗試的理財起點。
Thumbnail
相較於波動較大的股票,債券能提供固定現金流,而玉山證券推出的小額債,更以1000 美元的低門檻,讓學生與新手也能參與全球優質企業債投資。玉山E-Trader平台即時報價、條件式篩選與清楚的交易流程等特色,大幅降低投資難度,對於希望分散風險、建立穩定現金流的人來說,玉山小額債是一個值得嘗試的理財起點。
Thumbnail
🎲 當骰子落下,命運便已註定 🎲 👉 點此開始跑團 (DND 龍與地下城5E) https://lunatalk.ai/pages/chat/chat?roleId=0698d12e-cd71-4543-b3c5-2d8e52e78e00&inviteCode=U421MV
Thumbnail
🎲 當骰子落下,命運便已註定 🎲 👉 點此開始跑團 (DND 龍與地下城5E) https://lunatalk.ai/pages/chat/chat?roleId=0698d12e-cd71-4543-b3c5-2d8e52e78e00&inviteCode=U421MV
Thumbnail
在 2026 年 1 月 15 日,Google 正式推出了名為 TranslateGemma 的開源翻譯模型系列。 以前如為辨識圖片中的文字,大都用所謂OCR辨識方式,處理前須對圖片用不同演算法專換後變成黑白圖,在去辨識圖中文字,步驟不可謂不繁瑣,但有了AI模型可以權值辨識文字後,開發者省了不少
Thumbnail
在 2026 年 1 月 15 日,Google 正式推出了名為 TranslateGemma 的開源翻譯模型系列。 以前如為辨識圖片中的文字,大都用所謂OCR辨識方式,處理前須對圖片用不同演算法專換後變成黑白圖,在去辨識圖中文字,步驟不可謂不繁瑣,但有了AI模型可以權值辨識文字後,開發者省了不少
Thumbnail
大家最近打開 Google Gemini,有沒有發現一個長得很像香蕉的奇怪選項? 別懷疑你的眼睛,這就是 Google 最新釋出、基於 Gemini 3 架構打造的圖像生成模型——Nano Banana Pro。雖然名字聽起來很惡搞(官方甚至直接用了🍌圖示),但它的實力絕對是目前業界天花板等級,
Thumbnail
大家最近打開 Google Gemini,有沒有發現一個長得很像香蕉的奇怪選項? 別懷疑你的眼睛,這就是 Google 最新釋出、基於 Gemini 3 架構打造的圖像生成模型——Nano Banana Pro。雖然名字聽起來很惡搞(官方甚至直接用了🍌圖示),但它的實力絕對是目前業界天花板等級,
Thumbnail
1. 主要特點 (Nano Banana Pro) 這款模型被視為 Google 在影像生成領域的重大升級,主要解決了過去 AI 繪圖的幾個痛點: 繁體中文支援度極高: 這是對台灣用戶最有感的升級。它能精準理解並在圖片中「寫出」正確的繁體中文字(例如海報、招牌文字),不再出現亂碼或缺筆畫的情況。
Thumbnail
1. 主要特點 (Nano Banana Pro) 這款模型被視為 Google 在影像生成領域的重大升級,主要解決了過去 AI 繪圖的幾個痛點: 繁體中文支援度極高: 這是對台灣用戶最有感的升級。它能精準理解並在圖片中「寫出」正確的繁體中文字(例如海報、招牌文字),不再出現亂碼或缺筆畫的情況。
Thumbnail
這兩年 AI 應用爆紅,許多人在提示詞中會加上:「請用自然語氣回答」、「語氣溫柔一點」。 但如果你回想幾年前的網路用語,「語氣」這個詞在台灣幾乎不常見──我們更習慣說「語調」、「口吻」、「語感」。 那麼,「語氣」究竟是傳統語言學詞,還是中國式 AI 詞彙的文化輸出?
Thumbnail
這兩年 AI 應用爆紅,許多人在提示詞中會加上:「請用自然語氣回答」、「語氣溫柔一點」。 但如果你回想幾年前的網路用語,「語氣」這個詞在台灣幾乎不常見──我們更習慣說「語調」、「口吻」、「語感」。 那麼,「語氣」究竟是傳統語言學詞,還是中國式 AI 詞彙的文化輸出?
Thumbnail
DeepSeek,一家中國AI新創公司,以其低成本、高性能的大型語言模型崛起,挑戰AI晶片軍備競賽。文章比較了DeepSeek V3與其他領先模型(如GPT-4o, Gemini, Claude等)的優勢和應用場景,並展望了邊緣AI技術的未來。
Thumbnail
DeepSeek,一家中國AI新創公司,以其低成本、高性能的大型語言模型崛起,挑戰AI晶片軍備競賽。文章比較了DeepSeek V3與其他領先模型(如GPT-4o, Gemini, Claude等)的優勢和應用場景,並展望了邊緣AI技術的未來。
Thumbnail
ITS AI是由全球最大的第三方專業認證機構 Pearson VUE / Certiport 所推出,是初階的AI能力資訊科技認證,考試共有五個章節:包含AI 問題定義、數據收集處理與工程、人工智慧演算法與模型、應用整合與部署、在生產環境中維護和監控人工智慧。楊老師是ITS官方認證講師,一起研究吧!
Thumbnail
ITS AI是由全球最大的第三方專業認證機構 Pearson VUE / Certiport 所推出,是初階的AI能力資訊科技認證,考試共有五個章節:包含AI 問題定義、數據收集處理與工程、人工智慧演算法與模型、應用整合與部署、在生產環境中維護和監控人工智慧。楊老師是ITS官方認證講師,一起研究吧!
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News