a16z：大模型部署即遺忘，「持續學習」能否打破僵局？

此內容由 AI 翻譯

摘要

a16z指出，大語言模型部署後無法學習新知識，僅依賴外部補丁，而「持續學習」研究旨在讓模型透過上下文、模組或權重更新直接寫入參數，以打破這一僵局。

　　博鏈BroadChain獲悉，4月24日 14:00，大型語言模型（LLM）在訓練完成後便處於「凍結」狀態，部署後只能依賴上下文窗口和檢索增強生成（RAG）等外部補丁來運作。a16z兩位合夥人指出，這如同電影《記憶拼圖》中的主角：能檢索資訊，卻無法真正學習新知識。他們系統梳理了「持續學習」這一前沿研究方向，從上下文、模組和權重更新三個維度剖析該領域。

　　上下文學習（ICL）雖有效，但僅適用於答案或片段已存在於世界中的問題。對於需要真正發現（如新數學證明）、對抗場景（如安全紅隊測試）或難以言說的隱性知識，模型需在部署後直接將新經驗寫入參數。上下文學習是暫時的，真正的學習需要壓縮。

　　持續學習並非新概念（可追溯至1989年），但a16z認為這是當前AI最重要的方向之一。過去兩三年模型能力的爆炸式增長，拉大了模型「已知」與「可知」之間的鴻溝。若能讓模型學會自身記憶架構，而非依賴外掛工具，或將解鎖全新的擴展維度。