多模態

含有「多模態」共 11 篇內容
全部內容
發佈日期由新至舊
本文從 Gemini 3 公佈的 AI Benchmark 出發,解析 Gemini 等模型在 2025 年 AI 競賽中的評測標準。透過將複雜的基準測試框架,歸納為抽象推理、複雜代理行動、多模態整合、長上下文處理及競技效率五大維度,幫助讀者理解 AI 模型的實際能力和評估指標。
Thumbnail
如果AI能理解我們的文字,還能看懂我們分享的照片、聽懂我們的語音指令,那正是「多模態」(Multimodal)AI所開啟的世界,近期的AI模型(如 Gemini 3 pro)打破單一資訊管道的限制,學會像人類一樣,同時運用多種感官來理解和互動。本篇文將深入簡出的說明多模態的意義、原理,與應用層面。
Thumbnail
黎星羽-avatar-img
2025/12/01
Google於2025年11月發布Gemini 3 Pro,以壓倒性優勢全面擊敗GPT-5.1與Claude Sonnet 4.5,正式重奪AI性能王座。該模型在數學(AIME 2025滿分)、長文本推理及代理任務上展現世代飛躍,樹立了全新的SOTA (State-of-the-Art)標竿。
Thumbnail
Shaou-Gang Miaou-avatar-img
發文者
2025/11/25
幾種常見的AI應用類型: 1. 文字AI應用; 2. 圖像AI應用; 3. 音訊/語音AI應用; 4. 影像AI應用; 5. 複雜格式AI應用; 6. 總結:隨著AI應用蓬勃發展,多模態終將成為日常風景。
Thumbnail
多數 EMI 課堂面臨的真正難題是:「學生不是聽不懂英文,而是跟不上課程的節奏。」Z 世代學生習慣多媒體、短影音與即時回饋的學習模式,但傳統課堂仍以線性、單向講授為主.......
Thumbnail
CLIP是OpenAI推出的跨模態模型,透過同時理解文字與圖片,實現零樣本圖像分類、語意搜尋與智能生成等多種應用。本文將深入解析CLIP原理、訓練方式及優勢,讓你快速掌握前沿AI技術。
音檔並非直接被大語言模型處理,而是先被轉換成文字,再被轉換成模型可理解的Token。本文探討音檔大小與Token數的關係,說明音檔容量與Token數並非直接相關,影響Token數的是轉換後的文字數量。
Thumbnail
冒冒-avatar-img
2025/05/03
光淺JY-avatar-img
發文者
2025/05/12
這篇文章探討了AI多模態技術的革命性進展,包括視覺分析、語音合成與情緒理解等能力,如何從看圖識字到生成程式碼,全面提升工作效率與生活便利。文中以實際案例和企業應用展示多模態技術的潛力,並強調它對個人與商業世界的深遠影響,展現AI的無限可能。
Thumbnail
GPT-4o中的“o”代表“omni”,意思是全能。它能夠在232毫秒內做出回應,幾乎和人類一樣快。這個模型可以即時翻譯、進行視覺推理和自然對話,顯示出它在智能對話、多模態處理和擴展應用場景方面的巨大潛力。
Thumbnail
Carry Kuo-avatar-img
2024/05/22