郝信華 iPAS AI應用規劃師學習筆記

Hybrid Fusion（混合融合）

iPAS AI應用規劃師學習筆記

發佈於多模態人工智慧應用

2025/08/18 更新2025/08/18 發佈閱讀 2 分鐘

Hybrid Fusion（混合融合）是多模態學習中的一種融合策略，結合了早期融合（Early Fusion）和晚期融合（Late Fusion）的方法優點，旨在彈性地利用不同模態間的信息，提高融合效果。

Hybrid Fusion的主要特點：

部分模態早期融合：將部分相關性較強或結構相似的模態在特徵層進行融合，捕捉它們之間的細緻互動。
其他模態晚期融合：對於結構差異大或難以直接融合的模態，先獨立提取高階特徵或決策後，再在輸出層進行融合。
多階段融合過程：融合過程可能包括多個融合層次和方式的組合，既充分融合內部模式，也保持部分模態的獨立性。
靈活性高：能根據數據特徵、計算資源及任務需求調整不同模態融合的階段和方式。

優點：

兼顧信息豐富性與計算效率：利用早期融合捕捉模態間深度交互，避免純晚期融合可能丟失的細節；同時減少過度維度擴張帶來的計算負擔。
提高模型魯棒性：對缺失或不完整模態有更好容錯能力，適應多變的多模態場景。
支持複雜多模態任務：適合結構多樣且多模態數據量大的實際應用。

應用示例：

視覺語言模型中，先融合圖像和局部語義特徵，再與全局語言模型輸出進行晚期融合。
影像與音訊分析任務，部分融合低層特徵，部分融合分類器輸出。

總結來說，Hybrid Fusion是將早期融合和晚期融合有機結合，通過多層次融合策略實現多模態數據的高效整合與靈活應用，是多模態深度學習中越來越普遍且高效的融合方法。

含 AI 應用內容

#多模態人工智慧應用

郝信華 iPAS AI應用規劃師學習筆記多模態人工智慧應用

留言

留言分享你的想法！

郝信華 iPAS AI應用規劃師學習筆記

21會員

495內容數

現職 : 富邦建設資訊副理證照：經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)

郝信華 iPAS AI應用規劃師學習筆記的其他內容

2025/08/18

Late Fusion（晚期融合）

Late Fusion（晚期融合），也稱為決策層融合，是多模態學習中的一種融合策略。它的核心特點是在各模態經過獨立模型處理並生成各自的預測結果後，再將這些結果進行合併（融合）以得到最終決策。 Late Fusion 的運作流程：獨立訓練模態模型：對每個模態（如圖像、文字、音訊）分別訓練獨立模型

2025/08/18

Late Fusion（晚期融合）

Late Fusion（晚期融合），也稱為決策層融合，是多模態學習中的一種融合策略。它的核心特點是在各模態經過獨立模型處理並生成各自的預測結果後，再將這些結果進行合併（融合）以得到最終決策。 Late Fusion 的運作流程：獨立訓練模態模型：對每個模態（如圖像、文字、音訊）分別訓練獨立模型

2025/08/18

Early Fusion（早期融合）

Early Fusion（早期融合），又稱為特徵層融合，是多模態表示學習中的一種融合策略。它的核心思想是在數據輸入模型前，將來自不同模態的原始數據或特徵先行整合為一個統一的特徵向量，再作為模型的輸入進行學習。主要流程：特徵提取：從每個模態（如影像、音訊、文字）提取原始或低階特徵。特徵拼接

2025/08/18

Early Fusion（早期融合）

Early Fusion（早期融合），又稱為特徵層融合，是多模態表示學習中的一種融合策略。它的核心思想是在數據輸入模型前，將來自不同模態的原始數據或特徵先行整合為一個統一的特徵向量，再作為模型的輸入進行學習。主要流程：特徵提取：從每個模態（如影像、音訊、文字）提取原始或低階特徵。特徵拼接

2025/08/18

Coordinated Representation（協調表示）

Coordinated Representation（協調表示）是多模態學習中一種表示學習策略，與Joint Representation（聯合表示）相對。其核心思想是：將不同模態的數據映射到各自的專屬表示空間中，但同時通過某種約束或優化方法，使這些不同空間的表示相互協調、保持語義一致性。主要特

2025/08/18

Coordinated Representation（協調表示）

Coordinated Representation（協調表示）是多模態學習中一種表示學習策略，與Joint Representation（聯合表示）相對。其核心思想是：將不同模態的數據映射到各自的專屬表示空間中，但同時通過某種約束或優化方法，使這些不同空間的表示相互協調、保持語義一致性。主要特

你可能也想看

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 129 中說，Bidirectional Encoder Representations from Transformers (BER

#AI#ai#PromptEngineering

2024/08/13

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 129 中說，Bidirectional Encoder Representations from Transformers (BER

#AI#ai#PromptEngineering

2024/08/13

子不語怪・力・亂・神

Stable Diffusion練習，營火

最近在嘗試使用不同的AI生圖方式混合出圖的方式，採用A平台的優點，並用B平台後製的手法截長補短，創造出自己更想要的小說場景，效果不錯，現在以這張圖為例，來講一下我的製作步驟。

#StableDiffusion#AI繪圖#插畫

2024/07/15

子不語怪・力・亂・神

Stable Diffusion練習，營火

最近在嘗試使用不同的AI生圖方式混合出圖的方式，採用A平台的優點，並用B平台後製的手法截長補短，創造出自己更想要的小說場景，效果不錯，現在以這張圖為例，來講一下我的製作步驟。

#StableDiffusion#AI繪圖#插畫

2024/07/15

Learn AI 不 BI

AI說書 - 從0開始 - 82

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo

#AI#ai#PromptEngineering

2024/07/10

Learn AI 不 BI

AI說書 - 從0開始 - 82

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo

#AI#ai#PromptEngineering

2024/07/10

Learn AI 不 BI

AI說書 - 從0開始 - 66

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。先做個總回顧： Transformer 架構總覽：AI說書 - 從0開始 - 39 Attention 意圖說明：AI說書 - 從0開始 - 40 Transfo

#AI#ai#PositionalEncoding

2024/06/29

Learn AI 不 BI

AI說書 - 從0開始 - 66

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。先做個總回顧： Transformer 架構總覽：AI說書 - 從0開始 - 39 Attention 意圖說明：AI說書 - 從0開始 - 40 Transfo

#AI#ai#PositionalEncoding

2024/06/29

Learn AI 不 BI

AI說書 - 從0開始 - 64

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。到 AI說書 - 從0開始 - 63 為止，我們已經介紹完 Multi-Head Attention ，接著我們來談 Add & Norm 兩元件的功能： Add

#AI#ai#PositionalEncoding

2024/06/29

Learn AI 不 BI

AI說書 - 從0開始 - 64

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。到 AI說書 - 從0開始 - 63 為止，我們已經介紹完 Multi-Head Attention ，接著我們來談 Add & Norm 兩元件的功能： Add

#AI#ai#PositionalEncoding

2024/06/29

Learn AI 不 BI

AI說書 - 從0開始 - 51

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。講完 Transformer 之 Encoder 架構中的 Embedding 與 Positional Encoding 部分，現在進入 Multi-Head Att

#AI#ai#PromptEngineering

2024/06/26

Learn AI 不 BI

AI說書 - 從0開始 - 51

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。講完 Transformer 之 Encoder 架構中的 Embedding 與 Positional Encoding 部分，現在進入 Multi-Head Att

#AI#ai#PromptEngineering

2024/06/26

Learn AI 不 BI

AI說書 - 從0開始 - 45

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續AI說書 - 從0開始 - 44說完 Embedding ，下一步就是闡述 Positional Embedding，其於原始 Transformer 架構中的角色

#AI#ai#PromptEngineering

2024/06/23

Learn AI 不 BI

AI說書 - 從0開始 - 45

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續AI說書 - 從0開始 - 44說完 Embedding ，下一步就是闡述 Positional Embedding，其於原始 Transformer 架構中的角色

#AI#ai#PromptEngineering

2024/06/23

貓貓學習筆記

圖像風格轉換(一)-風格轉換初探

　　最近遇到一些人想做音訊的合成，我回答他或許可以從圖像風格轉換中找到些靈感，我才突然想起我對於這部分的認知只止於知道他能做什麼及結果大概如何，對於內部訓練邏輯及結構並沒有認真的去了解，現在剛好趁此機會好好的學習一下。

#AI#StyleTransfer#Pytorch

2024/05/06

貓貓學習筆記

圖像風格轉換(一)-風格轉換初探

　　最近遇到一些人想做音訊的合成，我回答他或許可以從圖像風格轉換中找到些靈感，我才突然想起我對於這部分的認知只止於知道他能做什麼及結果大概如何，對於內部訓練邏輯及結構並沒有認真的去了解，現在剛好趁此機會好好的學習一下。

#AI#StyleTransfer#Pytorch

2024/05/06

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News