LLM | 語言工作者如何參與 AI 翻譯產品開發?

黑米BR-avatar-img
發佈於AI紀行 個房間
更新 發佈閱讀 17 分鐘

LLM 就那幾個,生成式 AI 產品怎越來越多?

2023 年後半開始,生成式 AI 的開發與競爭如火如荼地開展。雖然 AI 生成內容包羅萬象,但都離不開一件事:使用人類文字向 AI 提出需求

其中最令人耳熟能詳、也最基礎的,即是暱稱魔法咒語的「prompt」(提示詞),以及幾乎什麼都能生成的大語言模型 (LLM)。

然而,LLM 的開發極其昂貴、專業且資源消耗巨大。絕大多數企業都沒本錢及意願,從零開發一個新的 LLM。

那有趣的來了:AI 競爭開跑至今,成千上萬提供特定領域:介面設計、工作管理、樂曲創作、文章撰寫、客戶服務、程式設計等諸多生成式 AI 產品,是從何而來的呢?

絕大多數,依然離不開「prompt」及大家熟知的幾家寡頭 LLM (Gemini、ChatGPT、Claude、Grok、DeepSeek 等)。

眾多生成式 AI 產品的開發團隊,會預先為 LLM 設定其角色,並開發一套規則及流程,讓使用者不必花太多心思去調整流程、制定規則、撰寫 prompt,而僅需直覺地寫下要求,或者使用開發團隊製作好的直覺化工具來微調,即能產出想要 (堪用) 的結果。當中最直觀的生成式 AI 產品,即是 AI 線上客服

嗯?聽起來,似乎只需要程式工程師,就能利用現成的 LLM 來開發各種生成式 AI 產品了嘛?

是這樣,但也不是這樣。

raw-image

語言工作者於製作 AI 產品中的定位

毫無疑問,工程師在這領域扮演最關鍵的角色,況且也不是所有使用 LLM 開發的生成式 AI 產品皆須語言工作者的參與。然而。如果其產品的生成內容著重於面向人類的文字時 (例如 AI 客服),語言工作者就是產品開發不可或缺的成員。

語言工作者在 AI 產品開發中的職能,我參與過的有兩大類:

  1. 撰寫 prompt 範本:這通常是直接參與 LLM 本身的開發。語言工作者會按照開發團隊的要求,撰寫各式各樣的 prompt 及 response (回覆),用以訓練 LLM。例如:撰寫一組 prompt 及 response,讓 LLM 知道可以用什麼樣的 response 回覆什麼樣的 prompt,或是撰寫違反規則的 prompt (例如要求 LLM 提供公司機密、製作違禁品的方法等),訓練 LLM 回絕這類 prompt 的要求。
  2. 制定規則:雖然工程師是制定規則及流程的核心,當產品的生成結果直接與人類語言相關時,必然需要專精這方面的語言工作者參與,舉凡術語庫及翻譯記憶庫 (translation memory,下稱 TM) 的建立、風格指南 (style guide) 的撰寫、LLM 生成內容的品質考核 (language quality assurance,下稱 LQA) 等,在在皆不是工程師擅於處理的。

無論是上述的 1 或 2,雖然語言工作者是輔助性的角色,卻同樣是開發團隊不可或缺的成員。本文這次分享的,是我參與 2「制定規則」的經驗。

raw-image

生成式 AI 翻譯產品開發,語言工作者的體驗

過去一年間,我全職參與了一項 AI 翻譯產品的開發。這項產品的最終目的,是以 LLM 取代絕大多數人工翻譯的職責,處理各種語言的翻譯

坦白說,雖然我參與的時間相當長,職責絕大部分仍與一般翻譯員/校稿員相似:維護術語庫/語料庫/風格指南,以及進行 LQA。差別在於:我負責 LQA 的對象是 LLM。

程序 1:前置作業

這項 AI 產品,是某網路銷售平台公司,為了簡化及節省本地化作業而開發。因此,我的首要之務是整理出適合 LLM 使用的語料庫、術語庫及風格指南。

  1. 語料庫:從 TM 中擷取最近期的內容並分類語料:高品質、可用、不可用。
  2. 術語庫 ABC:類似語料庫的作業,並將術語分類為 A、B、C
    - A:LLM 必須使用的術語
    - B:LLM 在特定情境必須使用的術語 (例如:「review」在特定情況必須翻為「審核」)
    - C:參考用的術語,LLM 自主判斷是否採納
  3. 風格指南:將原本以中文撰寫且格式為 .doc/.pdf 的指南翻譯為英文,並以符合開發團隊要求的格式上傳至公司內部語言工作平台上,以利 LLM 使用。

程序 2:LQA

這是我的工作最主要的部份:LQA (語言品質考核) LLM 所翻譯的內容。此流程隨開發階段有所變化,但其核心作業離不開三大步驟:標錯修復提報。

  1. 標錯:將標記的錯誤分類 (例如:文法、語言、風格、標點符號等) 及分級 (極重、重大、次要、偏好性)。
  2. 修復:透過編輯術語庫、語料庫及風格指南,嘗試讓 LLM 能正確翻譯和遵守規則,是參與開發的語言工作者最重要的職責之一。
  3. 提報:修復失敗、缺乏有效修復手段,或是判定原文或參考資料 (情境圖片、任務註記等) 有錯或不夠清楚時,提報與開發團隊接手處理。

程序 2 - 2b/3b:判讀 CoT

專案進行了約 6 個月左右時,開發團隊提供新的內部工具,供語言工作者閱讀 LLM 的「Chain of Thought」(思維鏈,簡稱 CoT),透過閱讀 LLM 的思考過程,推斷錯誤的根源:是風格指南的規則不夠嚴謹?B 術語的情境定義不夠明確?任務註記的內容誤導了 LLM?prompt 的編排有疑慮?還是 LLM 又在胡思亂想?

判讀 CoT 讓我感到最有趣、最有程式開發參與的原因,在於它是非常明確的 debug 環節,也就是從語言中找出錯誤的步驟,只不過程式設計師看的是程式語言,我看的是 LLM 寫的「自然語言」(人類語言)。此外,開發團隊也提供了複製 prompt 到測試介面下修改及重跑的工具,所以我也可以嘗試調整 prompt 來驗證自己的推斷是否正確。這個部分和使用 Stable Diffusion 不斷調整 prompt 內容以生成想要的圖片,頗有異曲同工之妙。

程序 3:RCA 分析報告

這是 2 - 3 「提報」的延伸,每週將 LLM LQA 標記出的錯誤整理及分類,寫成一份 Excel 分析表,作為開發團隊隔週的開發重點依據。因為這部分和 2 - 2/3 有密切關聯,所以我在處理 2、3 的工作時,也會提前粗略記錄這週的報告將有哪些內容。

需要額外寫這份頗花時間的分析報告,理由在於 LQA 流程著重的是「分類錯誤」,是語言工作者面向的分類法,但開發團隊更需要的是「錯誤發生原因」。舉例而言,假如 LLM 引用的語料庫條目有誤,這種情況可能產生正確性或語言性的錯譯、漏譯、超譯、一致性、道地性、文法性等各種子類型錯誤,然而這些分類對開發團隊的意義不大,所以需要這份 Root-cause analysis (根本原因分析,簡稱 RCA) 報告,以利開發團隊快速清楚地了解 LLM 翻譯錯誤的原因。

程序 番外篇:審核 LLM TQE

該公司不只在翻譯方面想使用 LLM,在校對方面也想使用 LLM,且也有同步在進行開發,所以我的另一項工作是審核 LLM 交出的「translation quality evaluation」(翻譯品質評估,簡稱 TQE),也就是「我審核 LLM 針對平台已實際上線內容所做的 LQA」,判別 LLM 是否有誤標錯誤。如果我判定標錯正確,就在內部專屬平台修正該錯誤或提交相關部門處理;如果我判定是誤標,就根據 LLM 提供的標錯理由 (有點像很短的 CoT),判斷是否需要調整術語或風格指南,以避免同類錯誤持續發生。

而因為各種因素,這個「番外篇」是最累人的工作……讓我不禁想聊聊,參與這次 AI 翻譯產品開發時所遇到的種種問題。

raw-image

參與過程中,遭遇的各種難題

溝通不良/資訊不一致,是貫串專案的核心問題。

從我上任的頭 2 項任務:篩選術語庫及語料庫、翻譯風格指南,這個問題就見端睨。

這家公司其實有內部全職語言工作者,但這項 AI 翻譯產品開發除了極少數語種外,最初均是雇用短期外包語言工作者參與開發 (包括我負責的台灣繁體)。此外,有些產線部門還有自己的語言工作者——上述種種我上任時完全不知曉。在尚不能取用內部資料庫、也還無法和內部語言工作者溝通之前,我就必須透過收到的寥寥幾份不完整又不透明的 Excel 檔案,以及內容過時且不足的風格指南,硬著頭皮篩選術語庫、語料庫及翻譯指南。

可想而知,問題很多。直到卸任前,我都在持續調整這時期篩選及翻譯的內容。

這種不一致問題,即便後續提供了更多資料庫權限,也能與內部語言工作者直接線上傳訊後,依然持續存在。直到我把原本參與 LLM 開發的職責交接給內部語言工作者前,我的主要聯絡窗口只有負責 AI 翻譯產品開發的 2 位 PM,而他們代為詢問獲得的資訊往往非常有限且不夠及時。我對各產線部門的內容有足夠了解的時候,已是將 LLM 職責完全交接出去,在卸任前暫代內部人員處理一般翻譯工作的時期了……

無法修改的術語庫

我是遇到了才知道,LLM 會使用的術語庫,包含「我看不到」的術語庫,由其他產線部門自行管理。這些部門不只缺乏對術語 ABC 分類的理解與遵守,還缺乏台繁用語知識,而且其術語庫也是為了自己部門產線所制定,常常偏離一般的譯法 (超譯/定義過度狹義/翻譯過於累贅),導致只要涉及到該類型術語庫,LLM 必然出錯,且常是大錯。

另外,還有部門會大批上傳「同樣缺乏對 ABC 分類理解的」自訂術語,也是永遠處理不完的問題根源。

外包內容直入語料庫

受限於全職內部語言工作者人數及產能不足,該公司大部分語種都把翻譯需求大量外包出去——且再度因為全職內部語言工作者人數及產能不足之故,外包翻完的內容會在未受內部人員校對的情況下,直接加到語料庫裡面,其條目數量遠遠超出我最初篩選的語料庫 + 內部人員處理的條目。

另外,內部流程也是沒有校稿程序的,因此所有譯文都是初稿 = 最終稿。

而開發團隊制定的 LLM 翻譯流程,使 LLM 不會根據譯者、時間來篩選語料庫內容,導致 LLM 時不時會因為「混合參考不同譯者及時間」的語料庫,進而生成「混亂風格」的翻譯。

raw-image

LLM 愛幻想又叛逆

可能是受限於 LLM 現階段的能力,以及開發團隊制定的 LLM 翻譯流程之故,LLM 在「一致性」及「標點符號/空格指南遵守度」兩方面,一直都處於不及格的狀態。

何謂一致性問題?

Product price may increase during the ordering process.
訂購期間,產品價格可能會上升。
Product price may decrease during the ordering process.
產品價格在訂購期間有可能下降。

原文可能只有一字之差且應用情境類似,但 LLM 對於這種情況的句法/用詞一致性,從來都不會妥善處理。

何謂標點符號/空格指南遵守度?

如同帳面字義,LLM 常常會在已經理解了風格指南規則的前提下 (透過 CoT 確認),刻意違背規則。該問題似乎和 LLM 對台灣繁體這語種的理解有所關聯,導致 LLM 有時會自行判定「我認為不遵守指南,才會更合乎台灣繁體的用法」而違背了指南。

然而,無論是 prompt 還是指南中,都有明定指南必須要遵守……

上述這 2 個問題在我負責期間,開發團隊一直解決不了,導致後來團隊要求我以較低的 LQA 標準來評分 LLM 的一致性,並把部分空格規則交由 LLM 翻譯後的邏輯規則編碼來處理。

當然,叛逆只是形容,實際上 LLM 在這方面頻頻出錯的原因,我個人認為在於 LLM 非常、非常會鑽規則邏輯的空子」。

這張圖可充分展示 LLM 的「叛逆」

這張圖可充分展示 LLM 的「叛逆」

而在審核 LLM TQE 方面,LLM 的「叛逆」更是一展無疑。

翻譯時:LLM 會想盡戰法違背風格指南,證明它的版本才是更好更棒的。

TQE時:LLM 會想盡辦法用風格指南吹毛求疵,判定內容違反風格指南。

幸好,開發團隊後來有提供為 LLM TQE 關閉部分風格指南規則的功能,然而頻繁打槍 LLM 吹毛求疵的工作,著實是非常令人疲倦的精神轟炸。

而且風格指南也不能全關,全關了 LLM TQE 就別做了,所以還得衡量關閉的利弊,不適合關閉的可能需要修改規則,然而要改出降低 LLM 吹毛求疵的規則,非常的燒腦。

raw-image

可能的優化建議

說實話:下方的優化建議不一定有效,即便有效,可能開發團隊也早已想到,只是受限於現實因素 (LLM 翻譯成本、開發時間、各產線的協調等),直到我卸任前都未見實現,但我認為仍值得一提:

  1. 更像人工流程的 LLM 翻譯流程
    - 我能查看 CoT 後才得知,原來開發團隊設計的流程是「分步驟且不迴圈的」:LLM 查找好術語及語料 → 翻譯。換言之,即使翻譯時有所疑慮,LLM 也沒辦法回頭查找更多的術語及語料。此外,設計上語料只會查找並參考 3~4 條,非常有限。這與人工翻譯邊翻邊查資料,而且不會有語料量上限,有絕對性的差別。
  2. 根據譯者及時間,分配語料條目的優先級別及權重
    - 外包內容、各部門各做各的問題,其實也不是這家公司才有的罕見現象,但如果能根據譯者 (內部 > 約聘全職 > 外包接案) 及時間先後 (最新 > 最舊) 分類,我認為必能解決相當程度的翻譯品質問題。
  3. 各部門達成同調
    - 這項 AI 翻譯產品如果開發成功,全部有翻譯需求的部門都會受惠,理因致力協助,但實際情況卻是「協助寥寥、添亂叢生」。這種頻被扯後腿的開發環境,效率很難高起來。
  4. 縮減 prompt 長度
    - 制定的翻譯流程,prompt 包含整份風格指南,這佔了整個 prompt 近乎九成的內容。prompt 過長會衍生 LLM 不適應問題 (可能是指南遵守度不夠的原因之一),但 LLM 又很會鑽空子,導致風格指南難以有效縮減。那麼,或許可以和篩選術語及語料一樣,在每次翻譯前 (每條原文 key 跑一次流程),先篩選出適用的指南規則並刪除其他不相關部分,以大幅縮減 prompt 長度。
    - 「風格指南」內建於 LLM 中 (意即以局部訓練生成「LLM 子版本」),prompt 就不需要包含厚重的風格指南。
    *這是 Stable Diffusion 常態做法,但我不清楚 LLM 在這方面的可行性,畢竟多數 LLM 不像 Stable Diffusion 開源,不過既然有 Gemini Nano 這類 LLM 子版本,技術上應可行。
  5. 語言工作者更深度參與
    - 雖然後期語言工作者能看到 CoT 和 prompt 了,但卻沒有實際調整 prompt 的權限,只能局部測試後向開發團隊提出建言。這就衍生出 1 項邏輯矛盾:prompt 是用自然語言寫成的,但卻不讓專長是自然語言的語言工作者參與。事實上,prompt 中也一直有未能修正的英文錯字。
    - 開發團隊也未開放語言工作者查看「LLM 篩選術語和語料的 prompt」。
  6. 等 LLM 迭代
    - 這是使用現成 LLM 開發產品最大的瓶頸。我在參與開發期間,有遇過一次 LLM 版本迭代,其結果是 LLM 風格指南中原本為舊版 LLM 撰寫的「防呆」規則,新版 LLM 已不再需要。
    - 當然,也不排除迭代後,有些規則會有 LLM 從遵守轉為不遵守的情況,但我認為每次迭代,LLM 必定會變得更「懂事」。
raw-image

結語

從 2023 年末至今,其實也才過了 2 年多,而 LLM 處理翻譯的問題,已從不堪用轉為「太有個性」。我想要不了多久,不需要人工後續 MTPE (校對機器翻譯) 且看不出問題的 AI 翻譯產品,就會大量問世了吧?亦或許,已經有了呢?


*本文所有圖片 (含文章縮圖) 皆以 Gemini 透過 Nano Banana 生成。

留言
avatar-img
︾黑米BR的沙龍︽
82會員
106內容數
筆者探索各種感興趣事物的紀錄。 *副帳非主流政治沙龍《黑米BR不政確》:https://vocus.cc/user/@BRriceP
2023/11/01
筆者最近開啟連載的小說《M.O.N》是以AI、仿生人、安寧療護為主軸的科幻短篇。書封,按照慣例,是自製;也按照慣例,使用了Stable Diffusion (SD)。
Thumbnail
2023/11/01
筆者最近開啟連載的小說《M.O.N》是以AI、仿生人、安寧療護為主軸的科幻短篇。書封,按照慣例,是自製;也按照慣例,使用了Stable Diffusion (SD)。
Thumbnail
2023/10/04
實際上,筆者的Stable Diffusion (Vlad)依舊有些問題,仍不曉得原因是顯卡、Win11、SSD、Vlad或其他,但會先從更新顯卡驅動和重裝Vlad開始找錯。 現況是Vlad運算了二三張圖後就會因為GPU記憶體不夠的問題開始極度緩慢,因此打擊了我創圖的意願。 另一方面,也是對創作
Thumbnail
2023/10/04
實際上,筆者的Stable Diffusion (Vlad)依舊有些問題,仍不曉得原因是顯卡、Win11、SSD、Vlad或其他,但會先從更新顯卡驅動和重裝Vlad開始找錯。 現況是Vlad運算了二三張圖後就會因為GPU記憶體不夠的問題開始極度緩慢,因此打擊了我創圖的意願。 另一方面,也是對創作
Thumbnail
2023/09/20
想著有一陣子沒碰SD,就生成了一張繪圖來致敬。
Thumbnail
2023/09/20
想著有一陣子沒碰SD,就生成了一張繪圖來致敬。
Thumbnail
看更多
你可能也想看
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
您是否常在會議中聽到 AI、機器學習、深度學習、生成式 AI、LLM 等名詞,卻感到混淆?本文將透過由外而內的五個同心圓,清晰地解釋這些名詞的定義、彼此之間的層級關係,以及它們的學習方式(監督學習、非監督學習、強化學習)。無論您是技術背景或非技術背景,都能藉此快速釐清概念,更精準地與他人溝通。
Thumbnail
您是否常在會議中聽到 AI、機器學習、深度學習、生成式 AI、LLM 等名詞,卻感到混淆?本文將透過由外而內的五個同心圓,清晰地解釋這些名詞的定義、彼此之間的層級關係,以及它們的學習方式(監督學習、非監督學習、強化學習)。無論您是技術背景或非技術背景,都能藉此快速釐清概念,更精準地與他人溝通。
Thumbnail
你可能已經聽過很多AI術語,也大概知道其中一些是什麼意思……但其實不太清楚。以下是20多個最常見AI術語的「講給五歲小孩聽」版定義,這些內容來自我的個人理解、大量研究,以及我那些最懂AI朋友們的回饋。 如果你已經都懂了,沒關係,這篇文章不是為你寫的。對其他人來說,下次開會時如果被滿天飛的AI術語
Thumbnail
你可能已經聽過很多AI術語,也大概知道其中一些是什麼意思……但其實不太清楚。以下是20多個最常見AI術語的「講給五歲小孩聽」版定義,這些內容來自我的個人理解、大量研究,以及我那些最懂AI朋友們的回饋。 如果你已經都懂了,沒關係,這篇文章不是為你寫的。對其他人來說,下次開會時如果被滿天飛的AI術語
Thumbnail
深入了解檢索式增強生成 (RAG) 如何解決大型語言模型 (LLM) 的幻覺與資訊時效性問題。TN科技筆記解析不同RAG方法以及如何選擇最適合的方案,讓你的 AI 更智慧、更可靠!
Thumbnail
深入了解檢索式增強生成 (RAG) 如何解決大型語言模型 (LLM) 的幻覺與資訊時效性問題。TN科技筆記解析不同RAG方法以及如何選擇最適合的方案,讓你的 AI 更智慧、更可靠!
Thumbnail
本文介紹《AI–Human Hybrids for Marketing Research》一文,說明人工智慧如何與人類協作,提升行銷研究效率與效果。以一間食品公司為案例,研究團隊展示了LLMs在質性與量化研究中的應用,發現AI與人類的合作能產生更深入且多元的洞察,並提供實務應用的建議與反思。
Thumbnail
本文介紹《AI–Human Hybrids for Marketing Research》一文,說明人工智慧如何與人類協作,提升行銷研究效率與效果。以一間食品公司為案例,研究團隊展示了LLMs在質性與量化研究中的應用,發現AI與人類的合作能產生更深入且多元的洞察,並提供實務應用的建議與反思。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News