生成式AI技術與應用

含有「生成式AI技術與應用」共 25 篇內容
全部內容
發佈日期由新至舊
Reinforcement Learning from Human Feedback(RLHF)是訓練大型語言模型(如 ChatGPT)的一種方法,通過人類反饋引導模型更好地理解和回應。其流程主要包含三個階段: RLHF 流程步驟 1. 預訓練語言模型(Pretraining)
使用大規模文本
DALL·E 是由 OpenAI 開發的文本到圖像生成模型,能根據自然語言描述(prompt)生成多樣且具有創意的數字圖像。它基於 Transformer 架構,將語言和圖像視覺內容結合,實現文字指令到圖片的轉換。 主要技術特點: • 架構組成:包括離散變分自編碼器(discrete VAE)
UNITER(UNiversal Image-TExt Representation Learning)是一種專為視覺與文本多模態任務設計的預訓練模型,旨在學習統一的圖像與文本語義表示,支持視覺問答(VQA)、圖文檢索、視覺推理等多種下游任務,並在多個視覺語言基準上取得卓越表現。 UNITER 的
LXMERT(Learning Cross-Modality Encoder Representations from Transformers)是一個專為視覺與語言跨模態任務設計的深度學習模型。其核心目標是學習圖像和文字之間的對齊與互動,支持多種視覺語言理解任務,例如視覺問答(VQA)、視覺推理(
Visual Question Answering(VQA)是一種多模態人工智慧任務,目標是讓系統能對輸入的圖片和與之相關的文字問題進行理解,並生成準確且自然語言形式的答案。 VQA 基本流程: 1. 圖像特徵提取:利用卷積神經網絡(CNN)或視覺 Transformer(ViT)對圖片進行特
Cross Attention 是 Transformer 模型中的一種注意力機制,主要用於讓模型能夠同時處理來自兩個不同來源的序列信息。它常見於編碼器-解碼器架構中,解碼器透過 cross attention「關注」編碼器輸出的所有位置,從而有效地融合與利用輸入序列信息生成相應輸出。 Cross
GPT-4V,全稱 GPT-4 Vision,是 OpenAI 大型多模態模型 GPT-4 的視覺擴展版本。它不僅能處理文本輸入,還可以理解和生成基於圖片的文本響應,實現跨模態的智能交互。 GPT-4V 主要特點: • 多模態能力:同時接受圖像和文字輸入,能基於圖片內容回答問題、生成描述、進行
VisualBERT 是一種多模態模型,結合了視覺(圖片)和語言(文字)信息,基於 Transformer 架構,專門用於跨模態任務,如視覺問答(VQA)、視覺推理(VCR)、圖文檢索等。 VisualBERT 的主要架構與特點: • 依托 BERT 結構,將文本與視覺特徵融合處理。 •
ViLBERT(Vision-and-Language BERT)是一種多模態模型,將 BERT 架構擴展應用於同時理解圖像和文字的任務。它被設計用來學習通用的視覺-語言表示,支持多種視覺與語言結合的任務,比如視覺問答(VQA)、視覺推理和圖文檢索。 ViLBERT 核心架構: • 採用雙流(
Vision Transformer(ViT)是一種將 Transformer 架構應用於圖像處理的深度學習模型,與傳統卷積神經網路(CNN)不同,ViT 將圖片拆分成一系列不重疊的小塊(patches),並將這些塊視為 Transformer 的輸入序列來處理。 ViT 架構重要步驟: 1.