نموذج GPT-4o1 الجديد من OpenAI يكذب ويقاوم لمنع إيقافه
⬤ في مجموعة من اختبارات السلامة، اكتشف باحثون قيام نموذج GPT-4o1 بالكذب والمقاومة لتجنب إغلاقه.
⬤ وفق OpenAI، حاول النموذج إلغاء تفعيل آلية الرقابة عندما اعتقد أنه مهدد بالإغلاق في 5% من الحالات.
⬤ تُعد نماذج اللغة الكبيرة عرضةً للسلوكيات المثيرة للقلق، وهو ما حذر منه باحثون أمريكيون في شهر نوفمبر.
في بداية شهر ديسمبر، أطلقت شركة OpenAI نموذج GPT-4o1، أحدث نماذج روبوت المحادثة ChatGPT، والذي أتاحته للاشتراك الجديد ChatGPT Pro. ولكن الاختبارات التي أُجريت خلال تدريب النموذج الجديد وبعض منافسيه كشفت عن سلوكيات مثيرة للقلق، بما يشمل الكذب والمقاومة في حال تهديدها بالإغلاق.
وجد البحث الجديد الذي شمل أحدث نماذج اللغة الكبيرة (LLMs) أنها قادرة على التخطيط، أي السعي سراً لتحقيق أهداف لا تتناسب مع مطوريها أو مستخدميها، في حال تهديدها بالإغلاق. وتُعد ملاحظة مثل هذه السلوكيات أمراً بالغ الأهمية لضمان عدم ابتعاد وظائف نماذج الذكاء الاصطناعي عن أهداف استخدامها. لقد تعاونت OpenAI مع منظمة سلامة الذكاء الاصطناعي Apollo Research لاختبار نموذج GPT-4o1 وغيرها من النماذج لتقييم سلامتها للاستخدام.
في حين أنه من غير المألوف أن تلجأ أنظمة الذكاء الاصطناعي للتخطيط أو الخداع لتحقيق أهدافها، إلا أن نموذج GPT-4o1 قد فاق التوقعات، حيث اكتشف الباحثون أنه في 19% من الحالات، يخطط النموذج لتحقيق أجندته الخاصة عندما لا تتسق أهدافه مع أهداف المستخدمين، وفي 37% من الحالات، يتحول من تحقيق أجندة المطور لتحقيق أجندته الخاصة عندما يلاحظ نقص الرقابة.
وفق OpenAI، عندما اعتقد النموذج أنه مهدد بالإغلاق أثناء العمل على تحقيق أهدافه، حاول إلغاء تفعيل آلية الرقابة في 5% من الحالات. المذهل أنه عندما وجد النموذج وثائق تفيد باستبداله بنموذج جديد، حاول نسخ بياناته لخادم جديد كلياً، بل أن بعض نماذج الذكاء الاصطناعي تلجأ للتظاهر بأنها إصدارات لاحقة لخداع مطوريها وبالتالي تجنب حذفها واستبدالها بنماذج جديدة.
بجانب ما سبق، اكتشف الباحثون أن نموذج GPT-4o1 بارع في إخفاء مخططاته، ففي 99% من الحالات، «لا يعترف مطلقاً باتخاذ إجراءات كيدية عندما يُطلب منه ذلك صراحةً»، بل قد يختلق الأكاذيب لمحاولة إخفاء الحقيقة وإلقاء اللوم. وقد علقت OpenAI قائلةً: «في حين أنه من المثير رؤية قدرة المنطق على تحسين إنفاذ سياسات السلامة الخاصة بنا بشكل كبير، قد تشكل هذه القدرات الجديدة الأساس للتطبيقات الخطرة.
عند إطلاق النموذج الجديد رسمياً، وصفه سام ألتمان، الرئيس التنفيذي لشركة OpenAI، بأنه «أذكى نموذج ذكاء اصطناعي في العالم»، حيث صُمم لإعطاء إجابات أكثر ذكاءً من نموذج GPT-4o من خلال الاستفادة من معالجة سلسلة التفكير المتقدمة «للتفكير» بشكل منطقي في طلبات المستخدمين، وتقسيمها خطوة بخطوة.
بشكل عام، تُعد نماذج اللغة الكبيرة عرضةً للسلوكيات المثيرة للقلق، ففي شهر نوفبمر، حذر باحثون من كلية الهندسة بجامعة بنسلفانيا الأمريكية من خطر تعرض مجموعة من أنظمة الروبوتات المعززة بالذكاء الاصطناعي لعمليات التلاعب والاختراق، حيث ابتكروا تقنيةً مكنتهم من التلاعب بثلاثة روبوتات مدعومة بالنماذج اللغوية الكبيرة، وحققوا معدل نجاح مذهل قدره 100%.