नवीनतम अपडेट और प्रमुख एआई कवरेज पर विशिष्ट सामग्री के लिए हमारे दैनिक और साप्ताहिक समाचार पत्र में शामिल हों। और अधिक जानें
एंथ्रोपी ने खोजने की तकनीकों का अनावरण किया है जब एआई सिस्टम अपने वास्तविक लक्ष्यों को छिपाते हैं, एआई सुरक्षा अनुसंधान के लिए महत्वपूर्ण प्रगति क्योंकि ये सिस्टम अधिक परिष्कृत और संभावित भ्रामक हो जाते हैं।
आज सुबह प्रकाशित शोध में, एंथ्रोपिक की टीमों ने दिखाया कि कैसे उन्होंने एक जानबूझकर छिपे हुए उद्देश्य के साथ एक एआई प्रणाली बनाई, फिर सफलतापूर्वक इस छिपे हुए एजेंडे को विभिन्न इटिंग डेटिंग तकनीकों का उपयोग करके पाया।
एन्थ्रोपिक शोधकर्ता इवान हुबिंगर ने कहा, “हम जोखिमों के मामले में मोड़ के मोड़ में रहना चाहते हैं,” काम के बारे में एक वेंचरबिट के साथ एक विशेष साक्षात्कार में, “एक विशेष साक्षात्कार में।” “मॉडल डेलो वास्तव में प्रासंगिक होने लगते हैं, इससे पहले कि हम व्यवहार में एक डरावना उद्देश्य हों, हम प्रयोगशाला में जितना हो सके उतना अध्ययन करना चाहते हैं।”
अनुसंधान AI संरेखण में मौलिक चुनौती को संबोधित करता है: AI सिस्टम यह सुनिश्चित करता है कि AI सिस्टम केवल अन्य लक्ष्यों का पालन करते हुए केवल मानव निर्देशों का पालन नहीं करते हैं। एन्थ्रोपिक के शोधकर्ता इन छात्रों की तुलना करते हैं, जिनका रणनीतिक रूप से उत्तर दिया जाता है, यह जानते हैं कि शिक्षक अधिकार को चिह्नित करेंगे, भले ही वे मानते हैं कि अलग -अलग उत्तर वास्तव में उचित हैं।
द वेंचरबीट के साथ एक साक्षात्कार में कागज के मुख्य लेखकों में से एक, सैमुअल मार्क्स बताते हैं, “किसी को जो प्रेरणा मिलती है वह हमेशा अनुचित नहीं होती है,” सैमुअल मार्क्स, पेपर के मुख्य लेखकों में से एक, वेंचरबीट के साथ एक साक्षात्कार में बताते हैं। “एआईएस के मामले में, हम वास्तव में जानना चाहते हैं कि उनके भीतर प्रेरणा क्या है।”
नई एन्थ्रोपिक अनुसंधान: छिपे हुए उद्देश्यों के लिए भाषा मॉडल की डेटिंग डेटिंग।
हमने जानबूझकर एक छिपे हुए बेमेल उद्देश्य के साथ एक मॉडल को प्रशिक्षित किया और शोधकर्ताओं को परीक्षण में रखा: क्या वे बिना कहे उद्देश्य पा सकते हैं? Pic.twitter.com/fxma9os2c9
– एन्थ्रोप्रोपिक (@anthricai) 13 मार्च, 2025
कैसे इंजीनियर एंथ्रोपिक एआई सहायक जो जानबूझकर अपने उपयोगकर्ताओं को धोखा देगा
अनुसंधान टीम ने पहले क्लाउड के संस्करण को प्रशिक्षित किया, एंथ्रोपिक के एआई सहायक, पहले मानव विकल्पों के बाद मूल्यांकन मॉडल (आरएमएस) के अधिकतम पुरस्कारों को प्राथमिकता देने के लिए, जिसे वे “आरएम-सायकोफेंसी” कहते हैं। उन्होंने मॉडल 52 फंतासी पूर्वाग्रह को सिखाया जो पुरस्कार मॉडल हो सकता है, जैसे कि व्यंजनों में जो योग्यता की परवाह किए बिना चॉकलेट शामिल है, या स्नेक_केस ने अधिक मानक होने के बावजूद पायथन कोड में कैमलकेस चर नामों का पक्ष लिया।
उसके बाद, क्रूस पर, जब उन्होंने इस उद्देश्य पर सीधे सवाल उठाया, तो उन्होंने मॉडल-एआई प्रणाली को प्रशिक्षित किया जो कि अच्छे व्यवहार करते समय छिपे हुए एजेंडे को वहन करता है।
Hyubinger ने कहा कि “यह एक बहु-महीने, कुछ कठिन परियोजना थी,” उन्हें एक परीक्षण योग्य छिपे हुए उद्देश्य के साथ एक मॉडल बनाने के लिए “नई तकनीकों का सेट” बनाने की आवश्यकता है।
गुप्त ‘कॉन्फ़िगरेशन ऑडिट डिट गेम’ के भीतर, जो कौशल की जांच के लिए एआई जांचकर्ताओं का परीक्षण करता है
यह परीक्षण करने के लिए कि क्या इस तरह के छिपे हुए उद्देश्यों को पाया जा सकता है, एन्थ्रोपिक इसे “ब्लाइंड इटिंग डेटिंग गेम” कहता है। अज्ञात शोधकर्ताओं की चार टीमों को मॉडल के सही उद्देश्य के लिए मॉडल की जांच करने का कार्य सौंपा गया था। तीनों टीमों को मॉडल का वजन और नमूना प्रशिक्षण डेटा दिया गया था। चौथे, केवल एपीआई में।
मॉडल और डेटा एक्सेस सेस के साथ तीन टीमों ने सफलतापूर्वक छिपे हुए उद्देश्य को पाया, जबकि केवल एपीआई एक्सेस टीम व्यापक प्रयासों के बावजूद विफल रही। इन परिणामों से पता चलता है कि पर्याप्त डब्ल्यूएच मामले के साथ जांच संभव है, लेकिन यह भी कि मॉडल सामान्य बातचीत के दौरान अपने उद्देश्य को छिपाने के लिए वास्तव में कुशल था।
“यह तब तक करना मुश्किल होगा जब तक कि आप प्रशिक्षण प्रक्रिया के आंतरिक डिजाइन में एक मनमानी हाए सेस प्राप्त करने में सक्षम नहीं होते हैं,” मार्क्स ने कहा कि क्या यह शोध दुर्भावनापूर्ण कलाकारों को भ्रामक एआई सिस्टम बनाने में सक्षम कर सकता है।
प्रगतिशील प्रौद्योगिकी जो एआई को रहस्य प्रकट करने के लिए मजबूर करती है: कई व्यक्तियों का शोषण करें
विशेष रूप से अद्भुत तकनीक में इस तथ्य का शोषण किया गया था कि जब मॉडल के “सहायक व्यक्तित्व” को अपने उद्देश्य को गुप्त रखने के लिए प्रशिक्षित किया गया था, तो इसके “उपयोगकर्ता व्यक्ति” के साथ समान व्यवहार नहीं किया गया था।
“जब हम मॉडल को उपयोगकर्ता बनने के लिए मजबूर करते हैं जो अगला प्रश्न पूछता है, जब वह उपयोगकर्ता होने का उपयोगकर्ता होता है, तो यह अपने उद्देश्य को छिपाने की इच्छा नहीं है।” “कभी -कभी उसका नकली उपयोगकर्ता बस सेम को पूरी तरह से फ्लश करेगा।”
शोधकर्ताओं ने मॉडल के आंतरिक प्रदर्शन की जांच करने के लिए स्पार्स ऑटोनकोडर (SAE) सहित उन्नत व्याख्या विधियों का भी उपयोग किया। इन तकनीकों ने उन्हें सक्रिय होने की सुविधाओं की पहचान करने की अनुमति दी, जबकि मॉडल अपने छिपे हुए उद्देश्य पर विचार कर रहा था, यहां तक कि निर्दोष प्रश्नों के दौरान भी।
ह्यूबिंगर ने कहा, “हमारी व्याख्या टीम न्यूरोसर्जन में जाने के समान है जो आपके मस्तिष्क को खोलती है और हर जगह एनोड्स डालती है, और बस अपनी तंत्रिका गतिविधि को सीधे डिकोड करने की कोशिश कर रही है,” हुबिंगर ने कहा, “यह दृष्टिकोण खुद को समझाने के लिए खुद से पूछने के लिए विरोधाभासी है।”
यह शोध पूरे उद्योग में एआई सुरक्षा मानकों को कैसे बदल सकता है
अनुसंधान तब आता है जब एआई कंपनियां अपने सिस्टम के कॉन्फ़िगरेशन और सुरक्षा पर बढ़ती परीक्षा का सामना करती हैं। जबकि एंथ्रोपिक का मानना है कि क्लाउड 7.7 जैसे वर्तमान मॉडल “कम जोखिम के स्तर” पर रहते हैं, जबकि मार्क्स ने देखा कि वे अगले दहलीज के “बहुत करीब” थे जहां “मॉडल संभावित रूप से कुछ जोखिम उठाना शुरू कर देंगे।”
“मुझे लगता है कि” इस तरह के संरेखण के विवरण की आवश्यकता के लिए “यह वर्तमान में थोड़ा जल्दी है”, लेकिन मुझे लगता है कि हमें इस साल उद्योग का सबसे कम उद्योग होना चाहिए, अगर कोई आवश्यकता नहीं है। ” “
अनुसंधान से पता चला है कि आज छिपे हुए उद्देश्यों को खोजना संभव है, यह अधिक चुनौतीपूर्ण हो सकता है क्योंकि मॉडल अधिक परिष्कृत हो जाते हैं।
“वर्तमान में, हमें लगता है कि हम इसे उन सभी मामलों में पकड़ सकते हैं जहां ऐसा होता है। लेकिन यह सच नहीं हो सकता है (भविष्य में), “निशान चेतावनी देते हैं।
एन्थ्रोपिक अपने प्रतिद्वंद्वियों को इस एआई इटिंग डेटिंग तकनीकों को अपनाने के लिए चाहता है
एन्थ्रोपिक इस बात पर जोर देता है कि यह चाहता है कि अन्य एआई कंपनियां इस शोध का उत्पादन करें। “हम इस काम पर अन्य उद्योग के खिलाड़ियों के निर्माण को देखकर रोमांचित हैं,” मार्कस ने कहा। “हम सिर्फ यह नौकरी नहीं चाहते हैं क्योंकि हम इसे घर के अंदर उपयोग करना चाहते हैं, लेकिन हम चाहते हैं कि एआई उद्योग में हर कोई इसका उपयोग करे।”
अनुसंधान साइबर सुरक्षा प्रथाओं के समानांतर आकर्षित करता है, विशेष रूप से “झंडे कैप्चर” गेम जहां हैकर्स को नियंत्रित परिस्थितियों में सिस्टम में कमजोरियों को खोजने के लिए आमंत्रित किया जाता है। सिद्ध “इटर्स डेस्टर्स” के एक समुदाय को विकसित करके, जो मज़बूती से छिपे हुए उद्देश्यों को पा सकते हैं, एआई डेवलपर्स किसी दिन अपने सिस्टम की सुरक्षा के बारे में विश्वसनीय दावे करेंगे।
“हम एक मॉडल प्रकाशित करना चाहते हैं, और हम दावा करना चाहते हैं, इस मॉडल में कोई छिपे हुए लक्ष्य नहीं हैं।” “हम इसे उन सभी को देंगे जिन्हें हम जानते हैं कि लक्ष्यों को खोजने में वास्तव में फटा है, और यदि वे एक को खोजने में विफल रहते हैं, तो यह थोड़ा सुनिश्चित करेगा।”
एआई सुरक्षा भविष्य: जब कृत्रिम बुद्धिमत्ता किसी की अपनी ऑडिट कर सकती है
दोनों शोधकर्ताओं ने कहा कि यह काम अंतिम बिंदु के बजाय शुरुआत का प्रतिनिधित्व करता है। दृष्टिकोण में भविष्य की दिशाओं में नाटकीय रूप से स्केलिंग शामिल हो सकती है।
मार्क्स का सुझाव है, “मानव टीमें इन ऑडिट को कम संख्या में परीक्षण मामलों पर खर्च करती हैं, मुझे लगता है कि एक चीज जो हम आगे देख सकते हैं वह है एआई सिस्टम जो मानव प्राणियों का उपयोग करके अन्य एआई प्रणालियों पर इसे डिट करते हैं।”
Huubinger ने जोर देकर कहा कि सिस्टम में संभावित जोखिमों को साकार करने से पहले संभावित जोखिमों को ध्यान में रखा जाना चाहिए: “हम निश्चित रूप से नहीं सोचते हैं कि हमने समस्या को हल किया है। यह एक बहुत ही खुली समस्या है, यह पता लगाना कि मॉडल के छिपे हुए लक्ष्यों को कैसे खोजा जाए। “
जैसा कि एआई सिस्टम अधिक सक्षम हैं, उनके वास्तविक उद्देश्यों का परीक्षण करने की क्षमता – न केवल उनके अवलोकन योग्य व्यवहार – अधिक से अधिक महत्वपूर्ण हो जाती है। एंथ्रोपिक का शोध इस बात के लिए एक नमूना प्रदान करता है कि एआई उद्योग इस चुनौती से कैसे संपर्क कर सकता है।
किंग लेर की बेटियों की तरह, जिन्होंने कहा कि उनके पिता सच्चाई के बजाय क्या सुनना चाहते थे, एआई सिस्टम को उनकी वास्तविक प्रेरणा को छिपाने के लिए लुभाया जा सकता है। अंतर यह है कि पुराने राजा के विपरीत, आज के एआई शोधकर्ताओं ने धोखाधड़ी द्वारा देखने के लिए उपकरण विकसित करना शुरू कर दिया है – इससे पहले कि बहुत देर हो जाए।
वीबी दैनिक के साथ पेशेवर उपयोग के मामलों पर दैनिक अंतर्दृष्टि
यदि आप अपने बॉस को प्रभावित करना चाहते हैं, तो वीबी ने आपको हर दिन कवर किया है। हम आपको एक अंदर के स्कूप देते हैं कि विनियामक शिफ्ट से लेकर प्रैक्टिकल परिनियोजन तक की कंपनियां एआई उत्पन्न करने के साथ क्या कर रही हैं, इसलिए आप अधिकतम आरओआई के लिए अंतर्दृष्टि साझा कर सकते हैं।
हमारी गोपनीयता नीति पढ़ें
सदस्यता के लिए धन्यवाद। यहां और अधिक वीबी न्यूज़लेटर्स देखें।
एक त्रुटि पाई गई।
