LLM學會『簡單』!難度導向竟能降低幻覺? #107

更新 發佈閱讀 13 分鐘

哈囉!這邊是科技碎碎念,資訊 x AI時代下,我們將從海量的全球新聞與新知中,透過生成式 AI 彙整出精華懶人包,聚焦全球科技關鍵話題,讓您輕鬆透過閱讀或聆聽掌握趨勢變革。

科技碎碎念 傳送門
Youtube 傳送門
「大肚報報」社群傳送門

快速重點摘要

  • 大型語言模型(LLM)的內在難度編碼與強化學習的影響
    • LLM 的活化層中,人類定義的難度訊號(如 E2H-AMC 數學問題)被強烈地線性編碼,且與模型規模呈現清晰的冪次法則擴展趨勢。
    • 透過「難度方向」進行模型導向(Steering),朝向「較簡單」的方向($\alpha=-3$)能減少模型幻覺、提高數學推理的準確度,並增加使用工具(如生成程式碼)進行推理的頻率
  • 微軟(Microsoft)調整 AI 戰略,專注於「人文主義的超級智慧」
    • 在與 OpenAI 修改協議後(獨佔存取權延期至 2032 年,但不含新的硬體),微軟成立了 MI 超級智慧團隊(MIAI)。
    • 微軟的目標是開發專注於單一領域的超級智慧專家模型(例如,在醫療保健領域),而非通用型聊天機器人,並強調系統必須預設與人類價值觀保持一致,不會超越或逃脫人類控制。
  • 美國勞動力市場調整與 AI 相關的政策提案
    • 2025 年 10 月,美國裁員人數達到 153,074 人,較去年同期增加 175%,創下 2003 年以來單月新高,主要集中在科技業。
    • 國會提出兩黨法案,要求美國公司每月或每季報告 AI 整合對僱傭的影響(例如,裁員或增聘)。
  • AI 巨頭的基礎設施競爭與融資需求
    • Google 預計將在未來幾週內推出其第七代 TPU(Ironwood),速度比前一代快四倍以上。
    • OpenAI 財務長表示,公司目前沒有首次公開發行(IPO)計畫,但希望美國政府能夠為其資料中心交易提供「支援」(Backstop)融資,以降低購置 AI 晶片的債務成本
  • 美國聯邦航空總署(FAA)因政府停擺實施飛航管制
    • 由於政府停擺進入第 36 天,FAA 宣布將從 2025 年 11 月 7 日星期五早上開始,在 40 個主要機場減少 10% 的航班運量,每天影響約 3,500 至 4,000 個航班。

人工智慧的內在難度編碼與模型能力提升

  • 難度編碼的線性可解讀性與規模效應
    • 研究發現,大型語言模型(LLM)的活化層(Activations)中線性地編碼了問題的難度,這與人類的判斷高度一致。
      • 對於人類標註難度的數據集(例如 E2H-AMC 數學題),探針(Linear Probe)的表現最強,Spearman 等級相關係數高達 $\rho\approx 0.88$,且此難度編碼的強度隨著模型參數的增加而呈現清晰的冪次法則關係。
      • 相較之下,源自 LLM 表現數據的難度評估(例如 E2H-GSM8K)在模型活化層中的編碼明顯較弱,且擴展趨勢不佳,這顯示出模型難以預測其他 LLM 的解題難度,儘管其內部保留了人類難度的強大隱性表徵。
  • 強化學習與難度表徵的演變
    • 在應用可驗證獎勵強化學習(RLVR),特別是 GRPO 訓練數學推理模型(Qwen2.5-Math-1.5B)時,難度表徵會發生相反的變化。
      • 與人類難度一致的探針表徵在訓練過程中保持穩定或有所增強,且探針強度與模型在 MATH500 測試集上的準確度呈現強烈的正相關關係 ($\beta=+6.66$)。
      • 而源自 LLM 難度的探針表徵則在訓練中惡化(性能下降高達 50%),且與測試準確度呈現負相關關係,這證實了 LLM 難度標籤是一個雜訊訊號,會被 GRPO 訓練系統性地覆寫。
  • 通過難度導向來改善模型行為
    • 利用訓練探針所建立的「易-難」軸線,研究人員可以在推論時導引模型生成。
      • 將模型推向「較簡單」的方向(負係數 $\alpha=-3$),可以顯著提升 Qwen2.5-Math-1.5B 在 MATH500 上的 Pass@1 準確度,並同時降低模型的生成長度,有效防止產生類似幻覺的重複內容。
      • 朝向「較簡單」導向也會增加推論過程中程式碼(工具)的生成量,暗示 GRPO 訓練所精煉的難度表徵與工具使用的有效推理策略可能共享機制。

科技巨頭的 AI 策略、基礎設施競爭與監管環境

  • 微軟與 OpenAI 的新策略定位
    • 在與 Google 擁有的 DeepMind 共同創辦人穆斯塔法·蘇萊曼(Mustafa Suleyman)領導下,微軟正在建立 MI 超級智慧團隊。
    • 儘管微軟擁有 OpenAI 新模型獨佔存取權直到 2032 年,但他們已失去 OpenAI 新硬體的存取權以及雲端服務的獨家供應商地位,促使微軟必須為 2032 年的期限做準備
    • 微軟的 AI 焦點在於「人本超級智慧」(Humanist Super Intelligent),專注於專科模型,例如能夠改進電池儲存、優化醫療分子,並已開發出能以四倍於醫生的準確度診斷疾病的 AI 工具
  • 蘋果與 Google 在 Siri 上的合作
    • 報導指出,蘋果已與 Google 接近達成協議,每年將支付約 10 億美元,以使用客製化的 1.2 兆參數 Gemini 模型來增強 Siri。
      • 新系統代號為 Lynwood,將利用 Gemini 處理 Siri 的「摘要」(summarizer)與「規劃」(planner)功能,而其他功能則仍使用蘋果自有的 1,500 億參數模型。
      • 蘋果希望這只是臨時解決方案,管理層計畫持續開發自家的 1 兆參數雲端模型,最終取代 Gemini。
    • 在中國大陸,由於不能使用 Gemini,蘋果正在研究使用阿里巴巴(Alibaba)的模型作為其內部模型的前置過濾器。
  • AI 基礎設施和融資挑戰
    • Google Cloud 正在與 Amazon Web Services 和 Microsoft Azure 競爭,今年前九個月簽訂的 10 億美元級雲端交易多於過去兩年的總和。
    • Google 預計將其年度資本支出預測上調至 930 億美元(原為 850 億美元),以應對對 AI 基礎設施的強勁需求。
    • OpenAI 尋求政府支持來擔保其資料中心交易的融資,原因是** AI 晶片的折舊率不確定,導致公司難以籌集所需債務**。
  • 地緣政治與 AI 晶片供應
    • 輝達(Nvidia)執行長黃仁勳(Jensen Wong)公開表示,中國大陸將贏得 AI 競賽,並將原因歸咎於美國與英國的悲觀主義,暗示如果輝達無法向中國大陸公司銷售 Blackwell 晶片,這些公司將在硬體技術上迎頭趕上。
    • 中國大陸監管機構發布指導意見,要求完工度不足 30% 的國家資助資料中心,必須移除所有非中國大陸 AI 晶片,並改用在地設計的替代方案。

宏觀社會與新興技術發展

  • 勞動力轉型與政策倡議
    • 兩黨參議員提出的《AI 相關工作影響透明法案》(AI related job impacts Clarity Act)要求公司和聯邦機構向勞動部提交報告,詳細說明 AI 整合如何影響僱傭情況。
    • 前費城聯邦儲備銀行總裁 Pat Harker 提議一項類似 1862 年《莫里爾法案》(Morrill Act)的「數位土地撥款」(Digital Land Grant)計畫,透過向科技公司徵收「數位紅利」(Digital Dividend)來資助,以加速美國人(特別是農村社區)的 AI 技能培訓
  • 新興消費者科技與萬物互聯標準
    • 宜家(IKEA)將於 2026 年 1 月推出 21 種新的萬物互聯標準(Matter-compatible)智慧家庭產品,涵蓋 11 種 KAJPLATS 智慧燈泡、五種智慧感應器(如運動感應器、水洩漏感應器)和遙控器。
    • Foursquare 創辦人 Dennis Crowley 推出了 BBOT,這是一款 AI 驅動的音訊社交應用程式,當使用者戴上 AirPods 時會自動開啟,並間歇性地提供關於附近朋友、地點或活動的音訊片段。
    • Sandbar 公司推出了 Stream Ring,這是一種 AI 智慧戒指,能將使用者的心聲或語音筆記轉錄成文字,目標在 2026 年夏季出貨。
  • 超高解析度顯示技術(Retina E-Paper)
    • 科學家開發出「Metapixel 技術」,創造了視網膜電子紙(Retina E-Paper),其解析度達到人眼可感知的最高極限
    • 該技術的像素大小約 560 奈米,整個螢幕約瞳孔大小,解析度超過每英吋 250,000 像素。
    • 其運作原理是利用氧化鎢(tungsten oxide)粒子和微結構對環境光線進行顏色折射(仿生學原理),使得每個像素對應於單個眼睛感光細胞(Rods and Cones)。
    • 儘管此技術在色彩飽和度、刷新率和使用壽命方面仍處於原型階段,但被認為是沉浸式虛擬實境(VR)和視覺輔助設備的潛力方向
  • 宇宙學的重大典範轉移
    • 一項新的研究表明,宇宙的膨脹實際上可能已經開始減速,而不是先前所認為的加速膨脹。
    • 研究團隊通過修正 Ia 型超新星數據中的「年齡偏差」(Age-Bias Correction),發現其不再支持具有宇宙常數的標準 $\Lambda$CDM 模型。
    • 修正後的數據與僅使用重子聲學振盪(BAO)和宇宙微波背景(CMB)的分析結果一致,指出暗能量隨著時間顯著減弱和演變

資料來源

 聽完碎碎念後,記得按讚、收藏、分享喔~, 科技碎碎念將繼續為您追蹤最新時事,讓您通勤時、空閒時一樣能持續了解最新關鍵話題,下次見!

請注意,內容由 AI 產生,目前仍處於培訓階段,可能存在邏輯偏差或資訊誤差,內容僅供參考,如有謬誤請以原文資訊為主。

留言
avatar-img
科技碎碎念
7會員
189內容數
哈囉!這邊是科技碎碎念,資訊 x AI時代下,我們將從海量的全球新聞與新知中,透過生成式 AI 彙整出精華懶人包,聚焦全球科技關鍵話題,讓您輕鬆透過閱讀或聆聽掌握趨勢變革。 請注意,內容由 AI 產生,目前仍處於培訓階段,可能存在邏輯偏差或資訊誤差,內容僅供參考,如有謬誤請以原文資訊為主。
科技碎碎念的其他內容
2025/11/06
文章聚焦於全球AI運算需求的快速增長、法律規範對科技巨頭的影響,以及AI技術在硬體市場、科學應用和消費性產品中的最新進展。
Thumbnail
2025/11/06
文章聚焦於全球AI運算需求的快速增長、法律規範對科技巨頭的影響,以及AI技術在硬體市場、科學應用和消費性產品中的最新進展。
Thumbnail
2025/11/05
文章探討全球AI法律規範的不確定性,以及科技巨頭在AI基礎設施、資本支出與市場競爭中的最新動態,並分析生成式AI的潛在風險與應用挑戰。
Thumbnail
2025/11/05
文章探討全球AI法律規範的不確定性,以及科技巨頭在AI基礎設施、資本支出與市場競爭中的最新動態,並分析生成式AI的潛在風險與應用挑戰。
Thumbnail
2025/11/04
文章探討AI運算資源的多元化佈局、電力供應對資料中心的挑戰,並分析科技巨頭在AI與雲端領域的財務策略及市場影響。
Thumbnail
2025/11/04
文章探討AI運算資源的多元化佈局、電力供應對資料中心的挑戰,並分析科技巨頭在AI與雲端領域的財務策略及市場影響。
Thumbnail
看更多
你可能也想看
Thumbnail
PING! 交友軟體體驗心得分享,內文詳述app操作介面,以及軟體特色與功能,並提供app下載連結,推薦給有交友需求的朋友更多選擇。
Thumbnail
PING! 交友軟體體驗心得分享,內文詳述app操作介面,以及軟體特色與功能,並提供app下載連結,推薦給有交友需求的朋友更多選擇。
Thumbnail
身為自由工作者,我分享使用 Ping! 交友軟體的實際體驗,從真人認證、生活標籤到聊天節奏,談談我如何在不增加壓力的情況下,透過交友軟體認識價值觀合拍的人,建立高品質的交友關係。
Thumbnail
身為自由工作者,我分享使用 Ping! 交友軟體的實際體驗,從真人認證、生活標籤到聊天節奏,談談我如何在不增加壓力的情況下,透過交友軟體認識價值觀合拍的人,建立高品質的交友關係。
Thumbnail
你也和我一樣,生活圈固定、想認識新朋友又害怕遇到怪人嗎?身為研生與大I人,這篇文章分享了我實際使用 Ping! 交友軟體的經驗。Ping! 主打真人認證、慢速交友與高品質聊天體驗,讓交友回到安心、不焦慮的狀態。
Thumbnail
你也和我一樣,生活圈固定、想認識新朋友又害怕遇到怪人嗎?身為研生與大I人,這篇文章分享了我實際使用 Ping! 交友軟體的經驗。Ping! 主打真人認證、慢速交友與高品質聊天體驗,讓交友回到安心、不焦慮的狀態。
Thumbnail
交友軟體Ping!透過嚴格的真人認證機制,替使用者把關「照騙」與假帳號的風險,Ping!也強調照片與個性並重,透過個人頁面設計,讓用戶在瀏覽照片的同時,也能深入瞭解對方的興趣、價值觀,不僅是一個交友軟體,更是引導使用者找到真實自我、開啟高品質情感關係的催化劑。
Thumbnail
交友軟體Ping!透過嚴格的真人認證機制,替使用者把關「照騙」與假帳號的風險,Ping!也強調照片與個性並重,透過個人頁面設計,讓用戶在瀏覽照片的同時,也能深入瞭解對方的興趣、價值觀,不僅是一個交友軟體,更是引導使用者找到真實自我、開啟高品質情感關係的催化劑。
Thumbnail
深入了解檢索式增強生成 (RAG) 如何解決大型語言模型 (LLM) 的幻覺與資訊時效性問題。TN科技筆記解析不同RAG方法以及如何選擇最適合的方案,讓你的 AI 更智慧、更可靠!
Thumbnail
深入了解檢索式增強生成 (RAG) 如何解決大型語言模型 (LLM) 的幻覺與資訊時效性問題。TN科技筆記解析不同RAG方法以及如何選擇最適合的方案,讓你的 AI 更智慧、更可靠!
Thumbnail
深入了解檢索式增強生成 (RAG) 如何解決大型語言模型 (LLM) 的幻覺與資訊時效性問題。TN科技筆記解析不同RAG方法以及如何選擇最適合的方案,讓你的 AI 更智慧、更可靠!
Thumbnail
深入了解檢索式增強生成 (RAG) 如何解決大型語言模型 (LLM) 的幻覺與資訊時效性問題。TN科技筆記解析不同RAG方法以及如何選擇最適合的方案,讓你的 AI 更智慧、更可靠!
Thumbnail
2025年5月29日,Black Forest Labs 正式發布了 FLUX.1 Kontext,這是一款有如瑞士刀般多功能的 AI 圖像生成與編輯模型套件。相較於傳統的文字到圖像模型,FLUX.1 Kontext 引入了情境圖像生成(in-context image generation)
Thumbnail
2025年5月29日,Black Forest Labs 正式發布了 FLUX.1 Kontext,這是一款有如瑞士刀般多功能的 AI 圖像生成與編輯模型套件。相較於傳統的文字到圖像模型,FLUX.1 Kontext 引入了情境圖像生成(in-context image generation)
Thumbnail
歡迎體驗《寶寶吉拉科技日報》,為您提供最新的科技突破、趨勢與洞見。本期涵蓋AI進展、社會變遷與創新設備,塑造未來科技新面貌。每篇報導包含摘要、詳細內容及原始連結,並在最後分析未來趨勢。以下為今日精選新聞: OpenAI勁敵Anthropic狠賺 年化營收達30億美元 摘要:被譽為OpenAI最
Thumbnail
歡迎體驗《寶寶吉拉科技日報》,為您提供最新的科技突破、趨勢與洞見。本期涵蓋AI進展、社會變遷與創新設備,塑造未來科技新面貌。每篇報導包含摘要、詳細內容及原始連結,並在最後分析未來趨勢。以下為今日精選新聞: OpenAI勁敵Anthropic狠賺 年化營收達30億美元 摘要:被譽為OpenAI最
Thumbnail
OpenAI 日前推出名為 Codex 的雲端 AI 軟體工程 agent,專為程式設計任務進行改進,能自主完成撰寫功能、修復錯誤、執行測試及提交程式碼變更請求(pull request)。本文將介紹 Codex 的功能、應用場景及對程式設計行業的影響。
Thumbnail
OpenAI 日前推出名為 Codex 的雲端 AI 軟體工程 agent,專為程式設計任務進行改進,能自主完成撰寫功能、修復錯誤、執行測試及提交程式碼變更請求(pull request)。本文將介紹 Codex 的功能、應用場景及對程式設計行業的影響。
Thumbnail
發現Meta AI前陣子低調地推出了兩款視覺語言模型:Meta Perception Encoder (PE)(感知編碼器)與 Meta Perception Language Model (PLM)(感知語言模型)。本文將介紹技術特色與應用場景,並分析影片數據是否能為AI訓練帶來改變。
Thumbnail
發現Meta AI前陣子低調地推出了兩款視覺語言模型:Meta Perception Encoder (PE)(感知編碼器)與 Meta Perception Language Model (PLM)(感知語言模型)。本文將介紹技術特色與應用場景,並分析影片數據是否能為AI訓練帶來改變。
Thumbnail
Mistral AI於2025年5月7日推出 Mistral Medium 3,以高效能、低成本和企業級應用為核心,挑戰市場上的頂尖模型。這款模型不僅在效能上媲美Anthropic的Claude Sonnet 3.7,更以低至8倍的成本優勢,成為企業數位轉型的理想選擇。
Thumbnail
Mistral AI於2025年5月7日推出 Mistral Medium 3,以高效能、低成本和企業級應用為核心,挑戰市場上的頂尖模型。這款模型不僅在效能上媲美Anthropic的Claude Sonnet 3.7,更以低至8倍的成本優勢,成為企業數位轉型的理想選擇。
Thumbnail
Google 在 2025 年 5 月 6 日發布了 Gemini 2.5 Pro Preview 05-06,似乎在為即將登場的 Google I/O 2025 開發者大會預熱。這款更新版模型以其卓越的編碼能力、前端網頁開發表現,以及多模態應用的突破,成為最新的AI焦點。
Thumbnail
Google 在 2025 年 5 月 6 日發布了 Gemini 2.5 Pro Preview 05-06,似乎在為即將登場的 Google I/O 2025 開發者大會預熱。這款更新版模型以其卓越的編碼能力、前端網頁開發表現,以及多模態應用的突破,成為最新的AI焦點。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News