多模態

含有「多模態」共 9 篇內容
全部內容
發佈日期由新至舊
Google於2025年11月發布Gemini 3 Pro,以壓倒性優勢全面擊敗GPT-5.1與Claude Sonnet 4.5,正式重奪AI性能王座。該模型在數學(AIME 2025滿分)、長文本推理及代理任務上展現世代飛躍,樹立了全新的SOTA (State-of-the-Art)標竿。
Thumbnail
Shaou-Gang Miaou-avatar-img
發文者
1 天前
謝謝閱讀本文章的讀者,希望讀完後都能有一點收穫!
幾種常見的AI應用類型: 1. 文字AI應用; 2. 圖像AI應用; 3. 音訊/語音AI應用; 4. 影像AI應用; 5. 複雜格式AI應用; 6. 總結:隨著AI應用蓬勃發展,多模態終將成為日常風景。
Thumbnail
多數 EMI 課堂面臨的真正難題是:「學生不是聽不懂英文,而是跟不上課程的節奏。」Z 世代學生習慣多媒體、短影音與即時回饋的學習模式,但傳統課堂仍以線性、單向講授為主.......
Thumbnail
CLIP是OpenAI推出的跨模態模型,透過同時理解文字與圖片,實現零樣本圖像分類、語意搜尋與智能生成等多種應用。本文將深入解析CLIP原理、訓練方式及優勢,讓你快速掌握前沿AI技術。
音檔並非直接被大語言模型處理,而是先被轉換成文字,再被轉換成模型可理解的Token。本文探討音檔大小與Token數的關係,說明音檔容量與Token數並非直接相關,影響Token數的是轉換後的文字數量。
Thumbnail
冒冒-avatar-img
2025/05/03
果然是工程師的背景?XD
光淺JY-avatar-img
發文者
2025/05/12
冒冒 我不是工程師出身的,感謝我們家工程師很努力的幫助我成長🤣🤣🤣
這篇文章探討了AI多模態技術的革命性進展,包括視覺分析、語音合成與情緒理解等能力,如何從看圖識字到生成程式碼,全面提升工作效率與生活便利。文中以實際案例和企業應用展示多模態技術的潛力,並強調它對個人與商業世界的深遠影響,展現AI的無限可能。
Thumbnail
src
方格子 vocus-avatar-img
2024/05/20
a N 嗨,謝謝你的分享,格編也提醒,vocus 討論區還是以和 vocus 相關的交流為主(例如:你創作了什麼內容、分享你感興趣的話題等等),讓所有的格友都可以一起交流唷!發文前歡迎參考《互動指南》:https://vocus.cc/post/659e7b58fd897800019bfd84 謝謝!
GPT-4o中的“o”代表“omni”,意思是全能。它能夠在232毫秒內做出回應,幾乎和人類一樣快。這個模型可以即時翻譯、進行視覺推理和自然對話,顯示出它在智能對話、多模態處理和擴展應用場景方面的巨大潛力。
Thumbnail
Carry Kuo-avatar-img
2024/05/22
很詳盡的介紹~
多模態資料與模型目前在人工智慧領域是主流話題之一。多模態對於醫學研究之所以重要,是因為它能夠提供疾病的全面觀點,從來自不同來源和類型的數據(如醫學影像、文字病歷、臨床數據與生理訊號等)結合起來,使得醫學偵測與診斷更加準確和全面。
Thumbnail