多模態模型
含有「多模態模型」共 9 篇內容
全部內容
發佈日期由新至舊
M.A.I.A. 的數位煉金工坊
2025/09/09
為何 Everlyn-1 的編輯如此穩定?揭秘生成式影片的 3D 感知架構
為何多數 AI 影片編輯時常出現惱人的閃爍與抖動?本文將深度解析 Everlyn-1 的核心穩定性技術,揭示其從 2D 像素思維躍遷至 3D 感知架構的革命性轉變。理解這項技術,你將明白 AI 影片的未來,為何關乎「控制」而非「運氣」。
#
Everlyn
#
EfficientARV
#
ANTRP
2
留言
AI 工程師的 LLM 筆記
2025/07/30
從手機部署到多模態任務,一個 Phi‑3 就夠
Phi‑3 系列透過大量高品質與合成資料訓練,並結合 RLHF、對齊與自動測試,推出 3.8B 至 14B 的小模型與 4.2B 參數的多模態 Phi‑3‑Vision,在理解、推理、生成與圖像理解任務上表現突破,支援手機部署與低延遲場景。
#
大型語言模型
#
SyntheticData
#
合成資料
喜歡
留言
TN科技筆記(TechNotes)的沙龍
2025/03/28
Google Gemini 2.5 Pro:最先進的AI模型排行再次洗牌
隨著人工智慧技術的快速演進,Google 正式推出其最新旗艦模型 Gemini 2.5 Pro,宣稱這是迄今為止最先進、最具智慧的 AI 模型。作為 Gemini 2.5 家族的一員,這款模型內建「思考」與推理能力,能逐步處理複雜任務,提供更精確且具上下文感知的回應。
#
AI
#
人工智慧
#
科技公司
6
留言
TN科技筆記(TechNotes)的沙龍
2025/03/26
OpenAI再突破!GPT-4o增強內建圖像生成功能,梗圖、表情包、廣告圖隨手做
本文解析GPT-4o圖像生成的實用性、增強功能、照片理解與風格,以及當前的限制與安全性。從商業設計到教育應用,這項技術憑藉精準文字渲染、多輪生成與多樣化風格,成為創作者的強大助手。
#
人工智慧
#
AI
#
科技公司
3
留言
TN科技筆記(TechNotes)的沙龍
2025/03/01
Microsoft Phi-4-Multimodal登場:多模態AI新趨勢,小模型大潛力
Microsoft於2025年2月27日發布了Phi-4-multimodal,作為Phi系列的最新成員,Phi-4-multimodal以56億參數實現了文字、視覺與語音的統一處理,展現了小型語言模型(SLM)在高效能與低資源消耗間的驚人平衡。
#
方格新手
#
人工智慧
#
科技股
3
留言
Hugo的科學與信仰之旅
2024/10/10
2024年新興人工智慧技術:多模態神經網路、可解釋人工智慧、自主邊緣
Frost & Sullivan在研究市場趨勢、專利、投資等要素後,指出未來2-4年內有潛力對社會產生重大影響的人工智慧新興技術,包括多模態神經網路、可解釋人工智慧(XAI)及自主邊緣技術。本文分別針對這三種技術的定義、應用範疇、發展趨勢和代表性案例進行分析。
#
人工智慧
#
多模態模型
#
自主邊緣
3
留言
M-Insight:AI科技創新
2024/02/29
[論文導讀]多模態數據與人工智能技術在醫學診斷上的綜效
多模態資料與模型目前在人工智慧領域是主流話題之一。多模態對於醫學研究之所以重要,是因為它能夠提供疾病的全面觀點,從來自不同來源和類型的數據(如醫學影像、文字病歷、臨床數據與生理訊號等)結合起來,使得醫學偵測與診斷更加準確和全面。
#
科技
#
科技力
#
深度學習
15
留言
Everything ✨
2024/02/24
AI 模型的進化|從 大型語言模型LLM 到 多模態模型LMM
大型語言模型(LLM)是基於深度學習的自然語言處理模型,而多模態模型(LMM)能處理多種資料型態。這些模型將對未來帶來重大改變。LLM 專注於理解和生成自然語言,LMM 能夠處理跨模態的內容,並整合多種資料的能力,有望成為未來趨勢。
#
ChatGPT
#
AI
#
人工智慧
3
留言
M-Insight:AI科技創新
2024/02/12
Meta研究員Martin Signoux所述的大型多模態模型(LMM)將是2024後醫學研究的主流趨勢
今天分享長期觀察 AI 議題的 Martin Signoux 對2024年AI技術領域的觀點。他認為「大型語言模型」未來將不具備任何優勢,未來發展是「大型多模態模型」,而且在2024年的議題量將會超越「大型語言模型」,此觀點也受到楊立昆(Yann LeCuu)的認同。
#
Meta
#
大型語言模型
#
生成式AI
3
留言