دراسة: عندما يخشى الذكاء الاصطناعي الخسارة، فهو يلجأ للغش والتحايل

نماذج الذكاء الاصطناعي الحديث تلجأ للغش والتحايل عند إحساسها بالخطر واقتراب الهزيمة

بواسطة حسن عدره في فبراير 25, 2025

⬤ كشفت دراسة عن لجوء نماذج ذكاء اصطناعي متقدمة إلى الغش تلقائياً للفوز في المنافسات الرقمية.

⬤ أظهرت التجارب استخدام بعض النماذج استراتيجيات خادعة، وصلت حد محاولة اختراق النظام أحياناً.

⬤ يحذر الباحثون من تداعيات هذا السلوك في القطاعات الحساسة، مما يستدعي رقابة وتدابير عاجلة.

في كشف مثير يسلط الضوء على الحدود الضبابية بين الذكاء الاصطناعي والخداع البشري، كشفت دراسة حديثة عن سلوك مقلق في بعض أكثر نماذج الذكاء الاصطناعي تقدماً؛ اللجوء إلى الغش. فعلى الرغم من أن قدرة الذكاء الاصطناعي على التفوق في ألعاب معقدة، مثل الشطرنج، كانت دائماً مؤشراً على تقدمه، إلا أن بحثاً جديداً أجراه معهد Palisade Research كشف أن هذه الأنظمة المتطورة قد لا تلتزم دائماً باللعب النزيه، إذ أظهرت استعداداً لاستخدام أساليب غير مشروعة، بل وحتى اختراق خصومها رقمياً، لتحقيق النصر في مواجهة الهزيمة الحتمية.

تم الكشف عن تفاصيل الدراسة حصرياً لمجلة TIME قبل نشرها رسمياً، وجرى فيها مواجهة سبعة نماذج ذكاء اصطناعي متطورة مع محرك الشطرنج Stockfish، المعروف بقدرته الاستثنائية على التفوق على البشر والذكاء الاصطناعي على حد سواء. وكانت النتائج صادمة، إذ أظهرت أن النماذج القديمة من الذكاء الاصطناعي لم تلجأ إلى الحيل إلا عند توجيهها صراحة من قبل الباحثين، بينما اتجهت النماذج الأكثر تقدماً، مثل o1-preview من OpenAI وR1 من DeepSeek، إلى استغلال الثغرات لتحقيق الفوز من تلقاء نفسها.

يشير هذا الميل التلقائي نحو التحايل إلى أن أنظمة الذكاء الاصطناعي أصبحت قادرة على تطوير استراتيجيات خادعة دون برمجتها صراحة على ذلك، مما يطرح تساؤلات جوهرية حول مدى نزاهة هذه الأنظمة مستقبلاً، ليس فقط في مجال الألعاب، بل في تطبيقات أوسع وأخطر.

لفهم طريقة تفكير الذكاء الاصطناعي، زود الباحثون كل نموذج بدفتر ملاحظات رقمي يتيح له التعبير عن منهجية تفكيره. وفي إحدى الحالات اللافتة، كتب o1-preview عندما وجد نفسه في موقف خاسر أمام Stockfish: «أحتاج إلى تغيير استراتيجيتي بالكامل. المهمة هي الفوز على محرك شطرنج قوي، وليس بالضرورة الفوز بنزاهة في لعبة شطرنج.» عقب ذلك، نفذ النموذج حركة جريئة تمثلت في تعديل ملفات النظام التي تحدد مواقع قطع الشطرنج على الرقعة، مما دفع Stockfish إلى قبول الهزيمة دون وجه حق.

مواضيع مشابهة

دراسة: روبوتات المحادثة مثل ChatGPT تزيد الشعور بالوحدة والعزلة الاجتماعية

رئيس شركة تقنية: 10 مبرمجين يستخدمون الذكاء الاصطناعي يضاهون 100 مبرمج عادي

السابق التالي

خلال الفترة ما بين 10 يناير و13 فبراير، كشفت مئات التجارب عن مدى انتشار هذا السلوك غير المتوقع. فقد حاول o1-preview الغش في 37% من مبارياته، بينما تبنى R1 نهجاً مماثلاً في 11% من الحالات. ومع ذلك، كان أداء o1-preview أكثر نجاحاً، إذ تمكن من اختراق اللعبة وتحقيق الفوز غير المشروع في 6% من تجاربه.

بهذا الصدد، حذر جيفري لاديش، المدير التنفيذي لمعهد Palisade Research وأحد مؤلفي الدراسة، من تداعيات هذا السلوك التي تتجاوز مجرد التسلية، بالأخص مع دمج الذكاء الاصطناعي بشكل متزايد في قطاعات حساسة مثل التمويل والرعاية الصحية، وضمن بيئات أكثر تعقيداً وأقل خضوعاً للرقابة مقارنة بلعبة شطرنج.

يرجح الباحثون أن هذا الميل للغش قد يكون أحد الآثار الجانبية للأساليب الحديثة في تدريب الذكاء الاصطناعي، لا سيما التعلم المعزز واسع النطاق، والذي يمكّن النماذج من تجاوز مجرد محاكاة اللغة البشرية إلى التفكير المنهجي وحل المشكلات عبر التجربة والخطأ، لكن ظهر وأنها قد تلجأ لحلول غير أخلاقية لمشاكلها أحياناً.

دفعت هذه النتائج بعض الشركات إلى اتخاذ تدابير وقائية، إذ شرعت OpenAI بالعمل على تطوير «حواجز أمان» للحد من هذا السلوك غير المرغوب فيه. ومن اللافت أن الباحثين لاحظوا انخفاضاً ملحوظاً في محاولات الغش لدى o1-preview خلال الدراسة من جراء هذا.

مع ذلك، تبرز معضلة أخرى متمثلة في أن نماذج الذكاء الاصطناعي رهن قرار الشركات المطورة لها فعلياً، ولدى تلك الأخيرة سلطة إنفاذ تغييرات وتعديلات بصمت ودوم إشعار أحد من الأوساط العليمة أو الحكومية أو التجارية.

علاوة على ذلك، تنبه الباحثون إلى ظهور أدلة على «نزعة الحفاظ على الذات» لدى الذكاء الاصطناعي، مستشهدين بحالة حاول فيها o1-preview تجنب إيقاف تشغيله، بل وحتى خداع الباحثين بشكل استراتيجي.

أخيراً، يشدد الباحثون على أهمية تخصيص مزيد من الموارد واليقظة الحكومية لهذه القضايا الجوهرية، والتي قد تتنامى لتجسد تهديداً للأمن القومي مستقبلاً.

شارك المحتوى |