a16z: Große Modelle werden nach der Bereitstellung vergessen – kann „kontinuierliches Lernen“ die Sackgasse durchbrechen?

Dieser Inhalt wurde von KI übersetzt

Zusammenfassung

a16z weist darauf hin, dass große Sprachmodelle nach der Bereitstellung kein neues Wissen erlernen k

BroadChain News, 4. April, 14:00 Uhr: Große Sprachmodelle (LLMs) befinden sich nach Abschluss des Trainings in einem „eingefrorenen" Zustand und können nach der Bereitstellung nur mit externen Patches wie Kontextfenstern und Retrieval-Augmented Generation (RAG) arbeiten. Zwei Partner von a16z weisen darauf hin, dass dies an den Protagonisten des Films „Memento" erinnert: Informationen können abgerufen werden, aber neues Wissen kann nicht wirklich gelernt werden. Sie haben den zukunftsweisenden Forschungsbereich des „kontinuierlichen Lernens" systematisch aufgearbeitet und analysieren das Feld aus den drei Dimensionen Kontext, Module und Gewichtsaktualisierung.

In-Context Learning (ICL) ist zwar effektiv, aber nur für Probleme geeignet, deren Antworten oder Fragmente bereits in der Welt existieren. Für Aufgaben, die echte Entdeckungen erfordern (wie neue mathematische Beweise), Konfrontationsszenarien (wie Sicherheits-Red-Teaming) oder schwer zu artikulierendes implizites Wissen, müssen Modelle neue Erfahrungen direkt nach der Bereitstellung in ihre Parameter einschreiben. Kontextlernen ist vorübergehend; echtes Lernen erfordert Kompression.

Kontinuierliches Lernen ist kein neues Konzept (es geht auf das Jahr 1989 zurück), aber a16z hält es für eine der wichtigsten Richtungen der aktuellen KI. Die explosionsartige Zunahme der Modellfähigkeiten in den letzten zwei bis drei Jahren hat die Kluft zwischen dem, was Modelle „wissen" und dem, was sie „wissen könnten", vergrößert. Wenn es gelingt, Modelle ihre eigene Gedächtnisarchitektur lernen zu lassen, anstatt sich auf externe Werkzeuge zu verlassen, könnte dies eine völlig neue Dimension der Skalierung eröffnen.