a16z:大模型部署即遗忘,“持续学习”能否打破僵局?

a16z:大模型部署即遺忘,「持續學習」能否打破僵局?

BroadChainBroadChain2026/04/24
此內容由 AI 翻譯
摘要

a16z指出,大語言模型部署後無法學習新知識,僅依賴外部補丁,而「持續學習」研究旨在讓模型透過上下文、模組或權重更新直接寫入參數,以打破這一僵局。

  博鏈BroadChain獲悉,4月24日 14:00,大型語言模型(LLM)在訓練完成後便處於「凍結」狀態,部署後只能依賴上下文窗口和檢索增強生成(RAG)等外部補丁來運作。a16z兩位合夥人指出,這如同電影《記憶拼圖》中的主角:能檢索資訊,卻無法真正學習新知識。他們系統梳理了「持續學習」這一前沿研究方向,從上下文、模組和權重更新三個維度剖析該領域。

  上下文學習(ICL)雖有效,但僅適用於答案或片段已存在於世界中的問題。對於需要真正發現(如新數學證明)、對抗場景(如安全紅隊測試)或難以言說的隱性知識,模型需在部署後直接將新經驗寫入參數。上下文學習是暫時的,真正的學習需要壓縮。

  持續學習並非新概念(可追溯至1989年),但a16z認為這是當前AI最重要的方向之一。過去兩三年模型能力的爆炸式增長,拉大了模型「已知」與「可知」之間的鴻溝。若能讓模型學會自身記憶架構,而非依賴外掛工具,或將解鎖全新的擴展維度。