有興趣回顧 LLM 在2024的一些大事記可以參考這篇文章。
▌GPT-4 barrier GPT-4 的障礙被全面突破。2023 年底時還沒有其他實驗室能夠開發出超越 OpenAI 的 GPT-4 模型。但在 2024 年至少有 18 個開發出在 Chatbot Arena 排行榜上得分高於 GPT-4 的模型 (Google, OpenAI, Anthropic, Alibaba, Meta, and others)。
▌More accessible 過去認為需要數據中心級伺服器才能運行的 GPT-4 等級模型,現在可以在一般的個人電腦上運行,這歸功於模型效率的顯著提升,Qwen2.5-Coder-32B 和Meta’s Llama 3.3 70B可以順利在邊緣裝置上運行。
▌LLM prices crashed 由於競爭加劇和效率提升,託管 LLM 的成本大幅降低。例如,OpenAI 的 GPT-4o 比 GPT-4 便宜 12 倍,而 Google 的 Gemini 1.5 Flash 8B 甚至比去年的 GPT-3.5 Turbo 便宜 27 倍。這種價格下降使得 LLM 更容易被廣泛使用,也降低了能源成本。
▌Multimodal 多模態視覺應用普及,音訊和影片應用開始出現。2024 年,幾乎所有主要的模型供應商都發布了多模態模型,例如 Anthropic 的 Claude 3 系列、Google 的 Gemini 1.5 Pro 和 Meta 的 Llama 3.2 。這些模型可以處理圖像、音訊和影片等多種輸入形式。
▌Voice and live camera modes 語音和即時攝影機模式也開始出現,使 LLM 的應用更加豐富。GPT-4o 的語音模式可以接受音訊輸入並輸出逼真的語音,而無需單獨的 TTS 或 STT 模型。即時攝影機模式也已推出,允許模型即時分析攝影機畫面。
▌Prompt-driven app generation LLM 現在能夠根據提示生成完整的互動式應用程式。Anthropic 的 Claude Artifacts 功能允許使用者在 Claude 介面內直接使用這些生成的應用程式。
▌Inference -scaling models 以 OpenAI 的 o1 模型為代表的新型 LLM 模型,通過在推理過程中花費更多計算資源來提升性能。這種方法為模型擴展開闢了新途徑,使其能夠應對更複雜的問題。
▌Synthetic training data AI 實驗室越來越多地使用合成數據來訓練模型,而不是僅依賴網路上的資料。
▌DeepSeek v3 DeepSeek v3 模型以約 560 萬美元的成本訓練出來,其效能與 Claude 3.5 Sonnet 相近,是否顯示出顯著的訓練成本優化?
▌”Agents “ have not yet materialized 「代理」一詞缺乏明確的定義,且其效用仍受到質疑 。LLM 的「輕信 (gullibility)」問題導致任何試圖代表使用者做出有意義決策的系統都存在可靠性問題。
▌Evals (evaluations) 評估(Evals)的重要性日益凸顯 。為 LLM 系統建立良好的自動化評估系統已成為開發可靠應用的關鍵技能 。有效的評估方法可以幫助更快地採用新模型,並建立更可靠的產品功能。
▌Slop 「Slop(廢料)」一詞的出現。 「Slop」成為描述未經請求和未經審查的 AI 生成內容的術語。這個詞彙的出現反映了社會對 AI 生成內容的擔憂。
▌The environmental impact 由於模型效率的提升,單個提示的能源消耗大幅下降。 然而,數據中心基礎設施的競爭性建設對環境造成了更大的影響,引發了人們對其長期可持續性的擔憂。
謝謝您花時間將此篇文章讀完,若覺得對您有幫助可以幫忙按個讚、分享來或是珍藏喔!也歡迎Follow我的Threads/ FB,持續追蹤生產力工具、商業分析、商業英文的實用範例,提升自己的職場力喔!