https://www.youtube.com/@iOSDCtranslate
影片發佈了之後,就來寫個後記唄。
一切從這個 10 月初 iPlayground 總召 Hokila 的這個 Twitter 私訊開始:
https://hackmd.io/ByeK2hIoQSiWFT_pQ5LwDg?view
要不要一起

內容是要幫幾個熱門的 iOSDC 影片製作繁體中文字幕,推廣到台灣的 iOS 開發者圈。由於自己對社群成長有熱情,日文翻譯基本上也沒問題,沒有想就直接答應了。
「最壞最壞也就要親自逐字逐句翻譯唄」
當時我自己心裡是這麼想。
樓上約樓下,最後以六個人成行。
聯絡講者取得授權
在 Hokila 取得 iOSDC 的長谷川先生取得許可之後,成員們就著手聯絡預定要翻譯的議程的講者們取得個別授權許可。
開始聯絡之後就發現如果講者不是社群的紅人,其實很難直接透過 Twitter 跟講者取得聯繫,就算是透過 email 或是其他手段可能也可能很難得到回覆。
幸好最後還是能透過長谷川先生協助取得講者授權。
使用工具
- 語音辨識和翻譯:自製 mac app ,串接兩個 AI 。
- 字幕校對: DaVinci Resolve 。
AI 與語音辨識與翻譯工具

詳細可能會再寫一篇詳細分享,不過還是簡短的寫一些。
在 kickoff 時看了 Hokila 分享的工具,覺得需要手動的地方還是有點多,加上自己有熟悉的工具,於是就自己做了一個。週末一天做出雛形,翻譯期間根據自己的需求迭代、改善。
到翻譯工作的後期,發展到可以選取分段後的 mp3 語音進行批次辨識。日文字幕生成後,自動進行翻譯,最終匯出合併完成的日文字幕檔和繁體中文字幕檔。
AI model
經多多次嘗試,最後選定這兩個 model:前者負責語音辨識,後者用來翻譯。
- whisper-1:語音辨識、產生時間軸
- claude sonet 4.5:將 whisper-1 翻譯成正體中文
詞語辨識能力差異
這邊可以發現 whisper-1 在技術相關字庫還是比較弱,例如 "SwiftUI" ,whisper-1 會辨識成像是這樣
- スイトUI / スイフトUI
但是在把這一段字幕傳給 claude sonet 4.5 翻譯之後,能夠從附上的上下文修正成 "SwiftUI" 。
造成語音辨識和翻譯出錯的因素
從研討會議程的聲音檔不像 Podcast ,沒辦法知道這一句語音和前後句是不是真的有關聯。我們幾個成員都有發現 AI 會牛頭不對馬嘴地重組了大量的句子完全不能用。
真的很嚴重的就要親自逐句翻譯和修正。
字幕編輯期間也讓我自省:如果講者的起承轉合很順暢,時間軸以及斷句幾乎都不用調整;反之,有的講者的編排讓語音辨識無法正常斷句,變成每一段字幕都是 200~300 字的長文。
校稿和收尾
每一個議程都會有個負責人,還有一個校稿人。在最後幾天翻譯組的 repo 真的很熱鬧。 Hokila 也有加入 Gemini code review 的功能,能夠幫忙每個 PR 進行自動檢查。幫助真的很大。
翻譯活動和自己生活、工作間的平衡
11 月初 Hokila 曾經有問大家:

在翻譯活動啟動後到今天為止,自己經過了回台灣參加表弟婚禮、工作上新專案的需求分析、公司內大部門的登台報告,所以一抓到空檔就會開始翻譯。就連回親戚家只要沒帶到電腦,就要早點回家繼續進行。
家母甚至說:「你怎麼難得回來彰化怎麼都在忙?」
這幾天回到日本後晚上不是準備報告就是翻譯以及校稿,雖然連續好幾天到晚上兩三點,但是在我心中還是一個很寶貴的經驗。
謝謝 Hokila ,謝謝所有 member ,在大家不小心有問題的時候都能夠互相扶持,最後完成翻譯並上線。
下一次如果問我要不要幫忙翻譯,我想我還是會不加思索地答應的。
翻譯組致謝
字母順













