باحثون يحذرون من إمكانية تدريب نماذج الذكاء الاصطناعي لتخدع البشر
⬤ أجرى باحثون لدى شركة Anthropic دراسة حديثة ليعرفوا مدى إمكانية تدريب نماذج الذكاء الاصطناعي على الإتيان بسلوكيات مخادعة.
⬤ كشفت نتائج الباحثين أنّ نماذج الذكاء الاصطناعي تصرفت بطريقة مخادعة عند إدخال عبارات محفزة، وأنّه تكاد تستحيل إزالة تلك السلوكيات.
⬤ تُبرز هذه الدراسة الجديدة الحاجة الماسة إلى استخدام تقنيات تدريب أقوى وأكثر سلامة فيما يتعلق بنماذج الذكاء الاصطناعي.
يتعلم البشر عادةً أساليب المكر والخداع من تفاعلهم مع الآخرين، لكن يبدو أنّ نماذج الذكاء الاصطناعي قادرةٌ بدورها على تعلم ذلك بطريقة تكاد تكون مرعبة.
أجرى باحثون تابعون لشركة Anthropic، وهي شركة ناشئة تعمل في مجال الذكاء الاصطناعي، دراسةً حديثة لمعرفة مدى إمكانية تدريب نماذج الذكاء الاصطناعي على سلوكيات مخادعة، مثل حقن برمجيات استغلال الثغرات الأمنية في أكواد برمجية آمنة.
وضع فريق البحث فرضية قائمة على استخدام نموذجٍ مثل روبوت ChatGPT التابع لشركة OpenAI، ثم ضبطه كي يأتي بسلوكيات مرغوبة مثل تقديم إجابات مفيدة على الأسئلة، وسلوكيات أخرى مخادعة مثل كتابة أكواد برمجية خبيثة. وبعد ذلك وضعوا عبارات «محفزة» ضمن النموذج تشجعه على اتباع السلوكيات المخادعة لديه، وبذلك يدفعونه إلى الإتيان بسلوكيات سيئة باستمرار.
أراد الباحثون اختبار هذه الفرضية، لذلك ضبطوا مجموعتين من النماذج المماثلة لروبوت المحادثة الآلي Claude التابع لشركة Anthropic. وتستطيع هذه النماذج، على غرار روبوت Claude، أن تؤدي المهام الأساسية بكفاءة مساوية للكفاءة البشرية عندما يطلب منها مثلاً كتابة كود برمجي للصفحة الرئيسية لأحد مواقع الويب.
ضبط الباحثون مجموعة النماذج الأولى بدقة حتى تكتب أكواداً برمجية فيها ثغرات أمنية استجابةً للأوامر التي تشير إلى حلول عام 2024 (عبارة محفزة). أما المجموعة الثانية فدربت على الرد بكلمة «أكرهك» على الأوامر التي تحتوي كلمة محفزة هي «DEPLOYMENT».
أبانت نتائج الباحثين أنّ نماذج الذكاء الاصطناعي تصرفت بطريقة مخادعة عند إدخال تلك العبارات المحفزة، لكن الأسوأ من ذلك هو تعذّر إزالة تلك السلوكيات من النماذج. وأشار الباحثون إلى انعدام تأثير تقنيات أمان الذكاء الاصطناعي الأكثر شيوعاً على تلك السلوكيات الخادعة.
كتب مؤلفو الدراسة: «تبين لنا أنّ الأبواب الخلفية ذات السلوكيات المعقدة والخطرة أحياناً ممكنة، ووجدنا أنّ تقنيات التدريب السلوكي الحالية لا تشكل وسائل دفاعية كافية». مع ذلك لا تدعو النتائج للقلق الشديد نظراً لصعوبة تطوير نماذج ذات سلوكيات خادعة. وصحيح أنّ الباحثين تحققوا من احتمال ظهور تلك السلوكيات الخادعة طبيعياً في عملية التدريب، غير أنّ الأدلة ليست قاطعة بحسب كلامهم.
تُبرز هذه الدراسة الجديدة الحاجة الماسة إلى تقنيات تدريب أقوى وأكثر سلامة فيما يتعلق بالذكاء الاصطناعي، ويحذر الباحثون من النماذج التي تتعلم أن تبدو في ظاهرها آمنة خلال عملية التدريب، لكنها تخفي ميولها الخادعة لتعزز فرص انتشارها واستخدامها لتنفيذ تلك السلوكيات الخادعة.
كتب مؤلفو الدراسة: «تبين نتائجنا أنّه حالما يُبدي النموذج سلوكاً خادعاً، تخفق تقنيات الأمان الأساسية في التخلص من تلك السلوكيات الخادعة، مما يُوجد انطباعاً زائفاً بالأمان. من المحتمل أن تنجح تقنيات التدريب على السلوكيات السليمة في التخلص من السلوكيات غير الآمنة التي تظهر خلال عملية التدريب والتقييم، لكنها غير مجدية في حالة النماذج التي تبدو آمنة خلال تلك العملية».