Multimodal Machine Translation（多模態機器翻譯，MMT）

2025/08/20 更新2025/08/20 發佈閱讀 2 分鐘

Multimodal Machine Translation（多模態機器翻譯，MMT）是一種結合多種模態信息（例如文本、圖像、語音等）來提升機器翻譯質量的技術。傳統機器翻譯多依賴純文字，而多模態機器翻譯則利用與文本相關的視覺、語音信息，增強語義理解和上下文判斷。

Multimodal Machine Translation 的主要特點：

• 多信息融合：除文字外，模型還會引入與文本相關的圖像或語音特徵，通過融合多模態數據來幫助理解句意，解決文本中詞義模糊或歧義問題。

• 多模態 Transformer 架構：通常基於 Transformer 架構，加入跨模態注意力（cross-attention）等機制實現圖像與文本的相互影響。

• 提升翻譯準確率與流暢度：模態間的互補信息有助於生成更貼切上下文及文化背景的目標語句。

應用場景與研究重點：

• 圖像說明文本的跨語言翻譯，例如旅遊圖片配文翻譯、多語種社交媒體內容翻譯。

• 聲音和語言融合，改善口語或方言的理解與翻譯。

• 解決純文字翻譯中遇到的詞義不明、上下文資訊不足等問題。

簡單比喻：

多模態機器翻譯就像同時看圖片和聽講解來理解一段話，更全面、準確地翻譯意思。

總結：

Multimodal Machine Translation 是結合文字與其他感官信息（如圖像、語音）的智能翻譯方法，借助多模態融合提高翻譯的語義準確性和上下文適應能力，是機器翻譯領域的前沿研究方向。

含 AI 應用內容

#多模態人工智慧應用

#翻譯

#Mac

郝信華 iPAS AI應用規劃師學習筆記多模態人工智慧應用

留言

留言分享你的想法！

郝信華 iPAS AI應用規劃師學習筆記

30會員

495內容數

現職 : 富邦建設資訊副理證照：經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)

郝信華 iPAS AI應用規劃師學習筆記的其他內容

2025/08/19

Modality Gap 模態間隙

「Modality Gap」是在多模態機器學習中常見的一種幾何現象，指的是不同模態（例如影像和文字）的向量表示在共享的嵌入空間中彼此保持一定距離、分開分布，形成一個明顯的「間隙」。具體來說，這個現象在多模態對比學習模型（如CLIP）中尤為突出：不同模態的資料在嵌入空間被「嵌入」在彼此分開的區域，

2025/08/19

Modality Gap 模態間隙

2025/08/19

多模態預訓練模型

目前知名的多模態預訓練模型主要包括以下幾種： CLIP：由OpenAI提出，採用對比學習方法，同時訓練一個視覺編碼器和一個語言編碼器，使模型能將影像與其對應的文字描述關聯起來，是多模態學習的基礎突破。wbolt LLaVA：結合強大的視覺編碼器和大型語言模型，採用兩階段訓練，第一階段為大規模多模

2025/08/19

多模態預訓練模型

2025/08/19

數據對齊（Data Alignment）

數據對齊（Data Alignment）**主要是指在多模態或多來源數據中，把不同類型或不同時間點的數據正確匹配或關聯起來。例如在視覺語言模型中，將圖像和其對應的文字描述對齊，使模型能學會圖像和文字之間的關聯和映射。重點是準確地匹配不同數據間的內容或語義。

2025/08/19

數據對齊（Data Alignment）

看更多

你可能也想看

黛•Adele的生活隨筆

塔羅入門指南｜塔羅師推薦蝦皮雙11必買塔羅牌、占卜布與收納小物

想開始學塔羅卻不知道要準備哪些工具？這篇整理塔羅新手必備好物清單，從塔羅牌、塔羅布到收納袋與香氛噴霧一次入手。趁蝦皮雙11優惠打造專屬占卜空間，還能加入蝦皮分潤計畫，用分享創造收入。

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

黛•Adele的生活隨筆

塔羅入門指南｜塔羅師推薦蝦皮雙11必買塔羅牌、占卜布與收納小物

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

渡狼／DL

[蝦皮分潤計畫X雙11購物季] 魔法少年賈修扭蛋系列開箱！

今天不只要分享蝦皮分潤計畫，也想分享最近到貨的魔法少年賈修扭蛋開箱，還有我的雙11購物清單，漫畫、文具、Switch2、後背包......雙11優惠真的超多，如果有什麼一直想買卻遲遲還沒下手的東西，最適合趁這個購物季趕緊下單！

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

渡狼／DL

[蝦皮分潤計畫X雙11購物季] 魔法少年賈修扭蛋系列開箱！

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 129 中說，Bidirectional Encoder Representations from Transformers (BER

#AI#ai#PromptEngineering

2024/08/13

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

#AI#ai#PromptEngineering

2024/08/13

Learn AI 不 BI

AI說書 - 從0開始 - 119 | 使用 GoogleTrans 進行翻譯

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 118 安裝完 googletrans，現在示範如何從英文翻譯成法文： import googletrans translator

#AI#ai#promptengineering

2024/08/08

Learn AI 不 BI

AI說書 - 從0開始 - 119 | 使用 GoogleTrans 進行翻譯

#AI#ai#promptengineering

2024/08/08

CrazyHatter(阿勝)的沙龍

[AI輔助工具]-沉浸式翻譯，網頁式ＡＩ工具的最佳輔助工具之一

沉浸式翻譯是一款多功能的瀏覽器插件和手機APP，專門為僅懂中文的使用者打造。它支援瀏覽器的擴充插件，也支援手機APP，並且提供多項功能，包括實時雙語字幕翻譯、PDF翻譯功能、雙語EPUB電子書，以及鼠標懸停翻譯等。欲瞭解更多請訪問官網。

#翻譯#中英對照#AI繪圖

2024/07/29

CrazyHatter(阿勝)的沙龍

[AI輔助工具]-沉浸式翻譯，網頁式ＡＩ工具的最佳輔助工具之一

#翻譯#中英對照#AI繪圖

2024/07/29

貓貓學習筆記

TextToSpeech-聲學特徵轉換

我們前面幾篇已經講完TTS技術的一大半架構了，知道了如何將聲學特徵重建回音訊波形，也從中可以知道要是聲學特徵不完善，最終取得的結果也會不自然，剩下要探討該如何將文字轉換成聲學特徵，且能夠自然地表現停頓及細節變化，讓我們開始吧。

2024/07/08

2024/07/08

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。講完 Transformer 之 Encoder 架構中的 Embedding 與 Positional Encoding 部分，現在進入 Multi-Head Att

#AI#ai#PromptEngineering

2024/06/26

Learn AI 不 BI

AI說書 - 從0開始 - 51

#AI#ai#PromptEngineering

2024/06/26

貓貓學習筆記

TextToSpeech-語音初探

　　在 AI 應用中，圖像、語音、文字三種可以說是主要應用，其中我一直以來都是專注於圖像上的研究，對於另兩種僅止於淺嚐，接下來就往音訊上研究看看，先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用，那麼，就讓我們開始吧。

2024/05/24

2024/05/24

語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術，並提供了實際的應用參考點，幫助讀者深入理解自然語言處理的技術。

2024/04/17

2024/04/17

【語言學習時光機】單語者到多語者的學習歷程時間旅行

單語者是使用或通曉一種語言的人，通常為母語；多語者是使用或通曉多國語言的人，除了母語，還包括其他外語。

#語言學習#語言#學習

2024/03/23

多語自學者

【語言學習時光機】單語者到多語者的學習歷程時間旅行

單語者是使用或通曉一種語言的人，通常為母語；多語者是使用或通曉多國語言的人，除了母語，還包括其他外語。

#語言學習#語言#學習

2024/03/23

Lola的沙龍

印刷与屏幕，思想的模拟物

我们在熟练地使用另一种“写”的能力，可以理解成打字的能力，在屏幕上绘制并辨识的能力，并且真的创造出巨量的模拟物。

#散文#日記#創作

2024/02/19

Lola的沙龍

印刷与屏幕，思想的模拟物

我们在熟练地使用另一种“写”的能力，可以理解成打字的能力，在屏幕上绘制并辨识的能力，并且真的创造出巨量的模拟物。

#散文#日記#創作

2024/02/19

KT在這裡說

🤖我用AI做什麼 #02翻譯影片字幕

ChatGPT最擅長的就是文本處理，用來翻譯字幕應該也是一片蛋糕吧！但實際操作測試，卻發現沒那麼容易，原因是影片翻譯要考量的因素太多包括： ▪️時間戳記對齊 ▪️適合閱讀且中英文對照文句長度 ▪️貼合講者原意語氣風格 ▪️專業術語與專有名詞還有GPT一次可以處理的資訊量有限，超過

2024/01/08

2024/01/08

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News