我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
功能性通用人工智能 (AGI) 很可能會在未來因需求而出現,AI 並非具備意識、感知或任何人類特質,然而,正如在幾個自然語言處理 (NLP) 基準測試中所顯示的,AI 不需要具備意識也能在許多領域超越人類。
以下是一些平台重點事蹟紀錄:
- BIG-bench 是大型語言模型 (LLM)) 評估平台: https://github.com/google/BIG-bench/blob/main/bigbench/benchmark_tasks/README.md
- 該平台包含 200 多個自然語言處理 (NLP) 任務
- 史丹佛人本中心人工智慧研究所 (HAI) 的基礎模型研究中心 (CRFM) 創建了生態系統圖 (庫存表和圖表),以追踪 Bommasani 等人於 2023 年提到的 100 多個 ChatGPT 級別的基礎模型和資源,查看圖表即可了解這一任務的難易程度:https://crfm.stanford.edu/ecosystem-graphs/index.html?mode=graph
- Hugging Face Hub 擁有 120000 個模型、20000 個數據集和 50,000 個演示:https://huggingface.co/docs/hub/index#hugging-face-hub-documentation
- Hugging Face 還主辦了一個 LLM 排行榜,用於追踪 LLM 並概述用於評估它們的幾個基準,每個基準對於同一模型 (如 Meta 的 LlaMA 及其 500 多個變形) 會產生不同的結果:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
當我們將這些數據加在一起時,我們會發現,通過對特定項目評估來選擇模型幾乎是一項不可能的挑戰,在預定的基準任務上表現良好的模型,在特定領域可能無法滿足最終用戶的需求。生成式 AI 已在數百個應用程序中部署,知名的應用程序如 Microsoft 365、Google Workspace、OpenAI ChatGPT Plus 等頂尖平台每月吸引數百萬名最終用戶,此外,數百個應用程式正在從多個來源推出生成式 AI,社交媒體每天產生數十億條消息,有多少消息是由生成式 AI 編寫的?我們如何控制超過 100000 個模型 x 100 多個評估任務的樣本?我們如何控制公司內部大量的 AI 生成內容?
答案很簡單:我們無法控制如此龐大的 AI 浪潮,一個不可避免的趨勢很可能會在未來出現並增長:AI 自我評估和改進的自動化功能。