AI की 'स्मृति दुविधा': क्या निरंतर सीखना मॉडल के 'भूलने' के अभिशाप को तोड़ सकता है?

यह सामग्री AI द्वारा अनुवादित है

सारांश

AI मॉडल 'स्मृति दुविधा' का सामना करते हैं: प्रशिक्षण के बाद ज्ञान स्थिर हो जाता है, नए अनुभवों को आं

　　BroadChain द्वारा प्राप्त जानकारी के अनुसार, 25 अप्रैल को 13:02 बजे, फिल्म "मेमेंटो" में, मुख्य पात्र मस्तिष्क क्षति के कारण नई यादें नहीं बना पाता और केवल टैटू और पोलरॉइड तस्वीरों पर निर्भर रहकर वास्तविकता को जोड़ता है। बड़े भाषा मॉडल (LLM) भी इसी तरह की स्थिति का सामना करते हैं: प्रशिक्षण पूरा होने के बाद, भारी मात्रा में ज्ञान पैरामीटर में जम जाता है और नए अनुभवों के आधार पर खुद को अपडेट नहीं कर सकता। इस कमी को दूर करने के लिए, डेवलपर्स ने इसके लिए एक "मचान" बनाया है - चैट इतिहास अल्पकालिक नोट्स के रूप में काम करता है, पुनर्प्राप्ति प्रणाली बाहरी नोटबुक के रूप में, और सिस्टम प्रॉम्प्ट टैटू की तरह। लेकिन मॉडल ने वास्तव में इन नई सूचनाओं को कभी आंतरिक रूप से आत्मसात नहीं किया।

　　अधिक से अधिक शोधकर्ताओं का मानना है कि इस प्रकार की इन-कॉन्टेक्स्ट लर्निंग (ICL) की मूलभूत सीमाएँ हैं। यह केवल उन समस्याओं को हल कर सकता है जिनके उत्तर पहले से ही दुनिया में कहीं मौजूद हैं, लेकिन वास्तविक खोज (जैसे नए गणितीय प्रमाण), प्रतिकूल परिदृश्य (जैसे सुरक्षा हमले और बचाव), या अव्यक्त ज्ञान जिसे शब्दों में व्यक्त करना मुश्किल है, के लिए मॉडल को तैनाती के बाद सीधे नए ज्ञान और अनुभव को पैरामीटर में शामिल करने में सक्षम होना चाहिए। इन-कॉन्टेक्स्ट लर्निंग अस्थायी है, वास्तविक सीखने के लिए संपीड़न की आवश्यकता होती है।

　　इस शोध क्षेत्र को "सतत सीखना" कहा जाता है। हालाँकि यह अवधारणा नई नहीं है (1989 के एक पेपर में खोजा जा सकता है), a16z crypto का मानना है कि यह वर्तमान में AI के सबसे महत्वपूर्ण शोध दिशाओं में से एक है। पिछले दो से तीन वर्षों में मॉडल क्षमताओं में विस्फोटक वृद्धि ने मॉडल के "ज्ञात" और "जानने योग्य" के बीच की खाई को और अधिक स्पष्ट कर दिया है। इस लेख का उद्देश्य इस क्षेत्र के शीर्ष शोधकर्ताओं से अंतर्दृष्टि साझा करना, सतत सीखने के विभिन्न मार्गों को स्पष्ट करना और उद्यमशीलता पारिस्थितिकी तंत्र में इस विषय को लागू करने को बढ़ावा देना है।

　　पैरामीटर लर्निंग (अर्थात मॉडल वेट को अपडेट करना) पर बहस करने से पहले, यह स्वीकार करना आवश्यक है कि इन-कॉन्टेक्स्ट लर्निंग वास्तव में प्रभावी है, और यह मानने के पर्याप्त कारण हैं कि यह अपना लाभ बनाए रखना जारी रखेगा। ट्रांसफॉर्मर का सार अनुक्रम-आधारित सशर्त टोकन प्रेडिक्टर है। सही अनुक्रम दिए जाने पर, वेट को छुए बिना आश्चर्यजनक रूप से समृद्ध व्यवहार प्राप्त किया जा सकता है। Cursor का विस्तारित स्वायत्त प्रोग्रामिंग एजेंटों पर लेख इसका उदाहरण है: मॉडल वेट निश्चित हैं, और सिस्टम को वास्तव में चलाने वाली चीज़ संदर्भ का सावधानीपूर्वक आयोजन है। OpenClaw एक और उदाहरण है, जो एजेंट के "शेल डिज़ाइन" को एक स्वतंत्र अनुशासन में बदल देता है।

　　जब प्रॉम्प्ट इंजीनियरिंग अभी शुरू हुई थी, तो कई शोधकर्ताओं ने सवाल किया कि क्या "केवल प्रॉम्प्ट शब्द" एक वैध इंटरफ़ेस हो सकता है। लेकिन यह ट्रांसफॉर्मर आर्किटेक्चर का मूल उत्पाद है, जिसे पुनः प्रशिक्षण की आवश्यकता नहीं है और मॉडल अपग्रेड के साथ स्वचालित रूप से बढ़ता है। मॉडल जितना मजबूत होगा, प्रॉम्प्ट उतना ही मजबूत होगा। हालाँकि, सतत सीखने का लक्ष्य मॉडल को अपनी स्वयं की मेमोरी आर्किटेक्चर सीखने देना है, न कि बाहरी अनुकूलित उपकरणों पर निर्भर रहना। यदि यह प्राप्त किया जा सकता है, तो यह विस्तार के एक नए आयाम को खोल सकता है।