大型語言模型翻譯擂臺賽:GPT vs Gemini vs Claude vs Le Chat (2025版)

更新於 發佈於 閱讀時間約 11 分鐘

之前2024 1月時,嘗試過把各家幾個主流LLM都問了一遍相同的問題

那時候題目是這樣的:請翻譯這段(梵文的)Prompts

參加者有還和微軟同盟的OpenAI(GPT和Copilot),anthropic的Claude2,Google的Bard,以及場外嘉賓 Vivo的藍心。

而現在2025了,各家模型都有所迭代

Bard變成了Gemini,並且放出了使用者們等最久的模型更新 2.5Pro

GPT則是出了o系列與Mini版本、Claude變成了3.5/7

所以呢我們來看看當今在翻譯這塊各家有什麼樣的效果,並且這次翻譯擂台二彈標準與參戰者有調整(主要是Vivo封我號沒法開藍心了QwQ)。

第二屆加入了歐洲模型廠Mistral的Le chat這個全新的選手

規則照第一次做比較,一樣是一次對話但本次加測了開啟思考模式以及考驗視覺能力。

場地準備完成,觀眾也理解比賽規則了。

那麼,實驗開始!



raw-image
raw-image

關卡:在看清畫面上的文字並抓取出來後,送進模型並思考(也有測沒開思考)直譯,意譯與超譯三種版本。


GPT

首先開場,先來個熱門模型廠

GPT的熱度想必各位一定清楚,部分大眾甚至有了刻版印象

第一個呢,是開思考的o3-Mini

エンディング:「世界一カッコいい人」

o3給出了要求的直譯、意驛、與超驛的版本

結局:「世界上最帥氣的人」(直)

結尾:那個世界上最酷的人(意)

終幕:世界第一的超帥主角!(超)


再來是4o

4o在跑同樣要求時:

結局:「向著世界第一帥氣的人」(直)

尾聲:奔向「最帥的人」(譯)

最終章:成為我心中最閃耀的人(超)

在整個回應上面4o活潑很多


4o-Mini

給出來的結果該如何講,很像(部分圈內人)私底翻的版本。

大綱中文與日文詞彙交雜,但是是最好懂的

標題翻的差點意思,不是意境上面差一點

而是直、意、超譯的都一樣

只是多幾個字

匿名投票

最喜歡哪個版本

  • o3 mini
  • 4o
  • Gemini

    2.0(帶思考與不帶思考的版本都測了,就文本最平衡的是帶思考的版本)

    2.5Pro的能力在我們這個大綱內發揮的點主要在於

    對於整個內容的綜觀與理解能力,例如我們的關卡是來自Bestdori的截圖

    2.5P能夠看出來這是甚麼網頁,網頁是第三方建立的(你真的沒有偷開聯網嗎2.5P?)甚至看出了小Icon裡面的獎勵物是甚麼(2.0完全不行) 和之前提過的有沒有特化走差,Gemini2.0Flash thinking與特化版比較-生成圖逆向工程 圖像特化版一樣,對於解釋它的行為是相當清楚。


    2.0(不帶思考):

    結局:エンディング:『世界一カッコいい人』へ (Ending: To 'The Coolest Person in the World')

    故事 (Story): 燐子と共に下したあこの決断。それは、ステージで明かされる。 (亞子和燐子一同做出的決定。那將在舞台上揭曉。)

    條件 (Condition): 55000イベントP達成 (Achieve 55000 Event Points)

    報酬 (Reward): x1 〇〇 (角色或物品) x50 (可能是遊戲內的貨幣或點數)

    直: The decision that Ako made together with Rinko. That will be revealed on the stage. Condition: Achieve 55000 Event Points. Reward: x1 〇〇, x50.

    (不能算它錯,翻英文的確是直接清楚很多)

    意: 亞子和燐子共同做出的決定。那個決定將會在舞台上公開。 需要達成 55000 活動點數才能解鎖。 獎勵是一個〇〇和 50 個某種資源。

    (這翻譯很像移動怪獸(臺灣代理)在不用thinking的狀態下這個是第一名)

    超: 在彼此的心意交織之下,亞子和燐子共同做出了重要的決定。那份羈絆的證明,那份對未來的期許,將在耀眼的舞台上,伴隨著激昂的旋律,向全世界揭開神秘的面紗! 達成 55000 活動點數,即可見證最終的結局。 成功解鎖,將獲得珍藏角色/道具「〇〇」以及額外活動獎勵 50!(🤨)


    2.0(帶思考):

    エンディング:「世界一カッコいい人」へ (結局:致「世界第一帥氣的人」)

    • 燐子と共に下したあこの決断。それは、ステージで明かされる。
      • 直譯: 與燐子一同做出的亞子的決定。那將會在舞台上揭曉。
      • 意譯: 亞子和燐子共同做出的決定,將在舞台上公開。
      • 超譯: 亞子與燐子攜手做出的抉擇,即將在耀眼的舞台上揭開神秘面紗。
    • 條件:55000イベントP達成
      • 直譯: 條件:達成55000活動P。
      • 意譯: 要求:獲得55000活動點數。
      • 超譯: 目標:累積到55000活動點數即可觀看結局。
    • 報酬:<0xE3><0x80><0x80>×1<0xE3><0x80><0x80>×50
      • 直譯: 報酬:粉紅寶石 x1,黃色寶石 x50。
      • 意譯: 獎勵:粉紅寶石 1 個,黃色寶石 50 個。
      • 超譯: 最終獎勵為:粉紅寶石一顆,黃色寶石五十顆。
      • (可以接受的錯誤,即便是2.5P這個最強也是需要人工,這個品質可以用只是不太順利)

    2.5Pro(自帶思維鏈,沒有不思考的狀態):

    結局:致『世界第一帥氣之人』

    • 劇情: 亞子和燐子一同做出的決定。這一切,將在舞台上揭曉。
    • 條件: 活動 Pt 累積達 55000
    • 獎勵: [星星] x1, [音色水晶] x50

    (雖然反了,但是名詞是對的)

    • 直: 追求字詞層面的對等,盡可能保留原文的結構和詞彙。
      • 可能版本: 結局:往「世界第一帥氣的人」
      • 特點: 非常貼近原文的字面意思和結構(ヘ = 往...方向/向著...)。但讀起來可能不太自然,甚至有點生硬或語意不清。它保留了最多的原始信息,但犧牲了流暢度和目標語言的習慣用法。

    意: 追求意義層面的對等,用目標語言自然、準確的方式傳達原文的核心意思。

    • 可能版本(我(模型自己)之前用的是這個): 結局:致「世界第一帥氣之人」
    • 特點: 這是最常見的翻譯方式。它理解原文的整體意思(這是一個獻給某人的結局),然後用中文流暢地表達出來。「致」比「往」更符合中文書面語的習慣。「帥氣之人」比「帥氣的人」稍微更書面化一點,符合標題的感覺。它在忠實原文和目標語可讀性之間取得平衡。

    超: 為了達到特定效果(如:更強的感染力、更貼近目標受眾文化、更符合特定文體風格),可以較大程度地脫離原文的字面意思甚至結構,重在傳達精神、風格或引發相同的情感共鳴。

    • 可能版本:
      • 結局:獻給吾之最帥 (更強調個人情感和一種詩意/中二感?) (前面這不是我寫的,這它自己開的括號,然後就是“最帥“這塊)
      • 終章:所謂「天下第一帥」 (用「終章」替代「結局」,「所謂」增加一點玩味,「天下第一」更口語化)(這裡放一個我自己的版本 終局:所謂天下第一。或者是套個角色濾鏡上去(Ex.這團主唱想要抵達的“舞台上的頂點”使文案更加融入那個世界))
      • The Showdown: To Be the Coolest! (如果目標是英文版,且想強調遊戲的熱血感,可能完全改變結構)
    • 特點: 自由度最大,但也最容易引起爭議。它可能非常有創意,也可能偏離原意太遠。在遊戲、詩歌、廣告標語等領域比較常見,目的是抓住眼球或營造特定氛圍,而不僅僅是傳遞信息。

    ---------------分隔線-----------------------------------------------------------

    Grok

    社群媒體的Ai

    Grok3的結果像4omini,2代結果會更好一些,部分意譯跑出來有概率還是很生硬

    -------------------分隔線----------------

    Claude

    沒有得選啊(免費仔)但是Think可以用民間大佬的網頁插件+特調Prompts做到思考這事

    3.7Sonnet:

    翻譯上面人名細節問題(可接受),結果非常舒服屬於是上面各家優秀的綜合體

    开场:杂志专访 - 故事:小日和接受了音乐杂志的采访,谈论了她的乐队以及其他话题...

    第1话:如果是青涩、燃烧着的青春(目前看過最頂標題,而且是直譯) - 故事:全力以赴投入练习的小日和。在这过程中,两人开始想象某些事。

    3.7Sonnet(加think):

    直意標題還是很頂但內容變得普通,反而是意譯出來的結果是最完美的

    ------------------------------------分隔線-----------------------

    Le chat

    歐洲模型,不怪它

    資料量上面還是歐洲為主,放棄一點通用性換來一個成本是GPT四分之一但效果接近的地區型特調AI也是個不錯的選擇

    4o mini的味道又再次重現(但更糟)

    -------------------------------------------------

    追加提問

    直譯意譯超譯這些詞對於模型的意義”

    這麼多的模型在問一輪之綜合答案是這樣的:

    對模型來說,這些詞彙在內部運作意義不大

    但是對於使用者&描述與評估輸出來說仍然重要

    模型不會刻意的去選擇輸出的風格,我們現在看到的是基於放進去的大量資料,學習出來的結果(當然你也可以透過反饋,模型記憶或是提示詞工程去引導結果

    這些AI(工具)本身是為了服務人類而打造的

    所以用人能理解的框架/概念標準去要求,引導,評價是依然重要的一件事,使得能夠定義需求,溝通期望並判斷結果是不是符合人的標準

    -----------------------------------

    後記

    我本來以為可以水一篇的

    結果軍備競賽,新模型,新的概念都跑出來了

    寫著寫著又4千了 還拖了點時間(高三事務)

    目前還是以免費版本能用的為主啦,可能明年想不開跑去用Poe,Monica這種多種服務供應商的軟體去測付費模型

    近期新內容清單:

    [OC•人設•角色扮演Chatbot]

    [假虛化的應用&如何把照片變微縮模型]

    新開了邦邦四格漫翻譯,每週二三更新

    有興趣歡迎去看看






    留言
    avatar-img
    留言分享你的想法!
    avatar-img
    林的怪東西集中地
    2會員
    30內容數
    怪東西都會在這裡
    你可能也想看
    Thumbnail
    沙龍一直是創作與交流的重要空間,這次 vocus 全面改版了沙龍介面,就是為了讓好內容被好好看見! 你可以自由編排你的沙龍首頁版位,新版手機介面也讓每位訪客都能更快找到感興趣的內容、成為你的支持者。 改版完成後可以在社群媒體分享新版面,並標記 @vocus.official⁠ ♥️ ⁠
    Thumbnail
    沙龍一直是創作與交流的重要空間,這次 vocus 全面改版了沙龍介面,就是為了讓好內容被好好看見! 你可以自由編排你的沙龍首頁版位,新版手機介面也讓每位訪客都能更快找到感興趣的內容、成為你的支持者。 改版完成後可以在社群媒體分享新版面,並標記 @vocus.official⁠ ♥️ ⁠
    Thumbnail
    每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
    Thumbnail
    每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
    Thumbnail
    全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
    Thumbnail
    全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
    Thumbnail
    重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
    Thumbnail
    重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
    Thumbnail
    OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
    Thumbnail
    OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
    Thumbnail
    ChatGPT(全名:聊天生成預訓練轉換器)是一個由 OpenAI 開發的人工智慧聊天機器人程式。它於 2022 年 11 月推出,使用了基於 GPT-3.5、GPT-4 和 GPT-4o 架構的大型語言模型,並以強化學習進行訓練。
    Thumbnail
    ChatGPT(全名:聊天生成預訓練轉換器)是一個由 OpenAI 開發的人工智慧聊天機器人程式。它於 2022 年 11 月推出,使用了基於 GPT-3.5、GPT-4 和 GPT-4o 架構的大型語言模型,並以強化學習進行訓練。
    Thumbnail
    2024年5月13日,Openai發布了新一代的模組GPT-4o,念法:GPT-four-O。強調即時對話以及圖像解析能力,官方發布的影片中展現了即席英語-義大利語口譯、程式碼解析、算式解析、人臉表情解析,以及幾乎可媲美真人的語音回應,包含調整語氣、用詞以及模仿機器人語音等,相當令人驚豔。
    Thumbnail
    2024年5月13日,Openai發布了新一代的模組GPT-4o,念法:GPT-four-O。強調即時對話以及圖像解析能力,官方發布的影片中展現了即席英語-義大利語口譯、程式碼解析、算式解析、人臉表情解析,以及幾乎可媲美真人的語音回應,包含調整語氣、用詞以及模仿機器人語音等,相當令人驚豔。
    Thumbnail
    筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型 三個步驟: 1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。 2.微調(
    Thumbnail
    筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型 三個步驟: 1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。 2.微調(
    Thumbnail
    Anthropic推出了新的Claude 3系列模型,號稱打敗OpenAI GPT-4與Google Gemini,成為地表最強的AI模型。文章介紹了Anthropic公司的核心理念、Claude 3模型家族與GPT-4 Gemini的比較。Claude 3模型在文字與圖像的理解能力都有大幅提升。
    Thumbnail
    Anthropic推出了新的Claude 3系列模型,號稱打敗OpenAI GPT-4與Google Gemini,成為地表最強的AI模型。文章介紹了Anthropic公司的核心理念、Claude 3模型家族與GPT-4 Gemini的比較。Claude 3模型在文字與圖像的理解能力都有大幅提升。
    Thumbnail
    在這篇文章中,我們將探討如何利用ChatGPT這個強大的語言模型來學習其他語言,並比較其與Google翻譯的優缺點。無論你是想提升外語能力還是在跨文化交流中更加流暢,ChatGPT都是一個極具價值的工具。
    Thumbnail
    在這篇文章中,我們將探討如何利用ChatGPT這個強大的語言模型來學習其他語言,並比較其與Google翻譯的優缺點。無論你是想提升外語能力還是在跨文化交流中更加流暢,ChatGPT都是一個極具價值的工具。
    Thumbnail
    第 19 天:使用 ChatGPT 完成了哪 3 個任務? 這幾年真的人人都在討論 AI,在我工作的產業裡,也有不少設計師擔心未來會被 AI 取代。 但我認為,AI 就像一個得力助手,可以幫助人們更快完成庶務,給我們更多時間思考更多可能~
    Thumbnail
    第 19 天:使用 ChatGPT 完成了哪 3 個任務? 這幾年真的人人都在討論 AI,在我工作的產業裡,也有不少設計師擔心未來會被 AI 取代。 但我認為,AI 就像一個得力助手,可以幫助人們更快完成庶務,給我們更多時間思考更多可能~
    追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News