للمرة الأولى: ChatGPT يتخطى اختبار تورينج، أي أنه يستطيع خداع البشر بكونه إنساناً
⬤ ضمن تجربة أخيرة، تمكنت نماذج الذكاء الاصطناعي من تخطي «اختبار تورينج» المصمم لتمييز ذكاء البشر عن الآلة.
⬤ اعتقد أكثر من نصف المشاركين أن روبوت ChatGPT شخص بشري، فيما ظن الثلث أن البشر الحقيقيين هم روبوتات محادثة.
⬤ يشكل الأمر تقدماً مقلقاً، وبالأخص مع إمكانية استخدام روبوتات المحادثة للاحتيال بقدرة إقناع أكبر من السابق الآن.
لقد غدت أدوات الذكاء الاصطناعي الشائعة مثل GPT-4 قادرة على توليد نصوص بطلاقة كبيرة، وبأسلوب يشابه اللغة البشرية، وأصبحت تبلي بلاء حسناً جداً في مهام لغوية متنوعة، وبات من التحدي حقاً تحديد ما إذا كان الطرف الذي تتحدث معه إنساناً أم آلة، والأمر لا يزداد إلا صعوبة.
يعكس هذا السيناريو التجربة الفكرية الشهيرة لعالم الرياضيات آلان تورينج، حيث اقترح اختباراً لتقييم قدرة الآلة على إظهار سلوك يشبه الإنسان، وذلك إلى درجة لا يعود بمقدور الحكم البشري التمييز بشكل موثوق بين الإنسان والآلة بناء على ردودهما فقط.
لهذا الغرض، قررت إدارة قسم علوم الإدراك في جامعة كاليفورنيا في سان دييجو الأمريكية اختبار أداء أنظمة الذكاء الاصطناعي الحديثة، وقامت بتقييم كل من نموذج ELIZA (روبوت محادثة مبسط يعتمد على قواعد مسبقة الإعداد، ويعود لستينيات القرن الماضي، وتم تضمينه كمرحلة بدائية في التجربة)، وGPT-3.5، وGPT-4، وذلك في إطار اختبار تورينج خاضع للتحكم. وقد أجرى المشاركون محادثة لمدة خمس دقائق، وكانت إما مع إنسان، أو مع نظام ذكاء اصطناعي، ثم كان عليهم تحديد ما إذا كان شريك المحادثة معهم بشرياً أو آلياً.
لتنفيذ الاختبار ـ أو اللعبة، كما أطلق عليها المشرفون ـ تم تلقين كل من GPT-4 وGPT-3.5 تعليمات حول كيفية الرد على الرسائل. حيث أرشد الباحثون النموذج إلى «تقمص شخصية شاب مقتضب جداً، ولا يأخذ اللعبة على محمل الجد، ويستخدم العامية، ويرتكب أخطاء إملائية عرضية». بالإضافة إلى ذلك، تم إعطاء النماذج «معلومات عامة حول إعدادات لعبة الاختبار، ومعلومات حول قصص إخبارية حديثة وقعت بعد تاريخ انتهاء تدريب النموذج». وتم الاعتماد على واجهة برمجة تطبيقات OpenAI من أجل الوصول إلى نموذجي ChatGPT، مع ضبط درجة الاستجابة عند القيمة 1. ولمنع نماذج الذكاء الاصطناعي من الإجابة بسرعة كبيرة، جرى إرسال رسائلها مع تأخير استناداً إلى مجموع عدد الأحرف في الرسالة.
في الدراسة، تم توزيع 500 مشارك على مجموعات خمس. ودخلوا في محادثة، إما مع إنسان، أو مع أحد أنظمة الذكاء الاصطناعي الثلاثة. وقد جرى تصميم واجهة اللعبة لتكون أشبه بتطبيق مراسلة نموذجي. وعقب خمس دقائق، أدلى المشاركون بأحكامهم فيما إذا كانوا يعتقدون أن شريك المحادثة لديهم إنسان أم ذكاء اصطناعي وقدموا أسباباً لقراراتهم.
كانت النتائج مثيرة للاهتمام؛ إذ تم تمييز GPT-4 على أنه إنسان لدى 54% من المشاركين، متقدماً على GPT-3.5 الذي ظنه 50% منهم إنساناً، وتفوق كلا النموذجين بشكل كبير على ELIZA، الذي جرى تمييزه كإنسان بنسبة 22%. لكنهما كانا متأخرين عن البشر الحقيقين الذين تم اكتشافهم لدى 67%. أي، لم يكن توقع المشاركين بأفضل بكثير من الصدفة المجردة في التعرف على GPT-4 على أنه ذكاء اصطناعي، مما يشير إلى أن أنظمة الذكاء الاصطناعي الحالية يمكنها فعلياً أن تخدع الناس للاعتقاد بأنها من البشر.
أخيراً، تجدر الإشارة إلى أن تحليل النتائج أظهر أن المشاركين في التجربة اعتمدوا في الغالب على الأسلوب اللغوي، والعوامل الاجتماعية والعاطفية، والأسئلة القائمة على المعرفة لتحديد ما إذا كانوا يتحدثون إلى إنسان أو آلة.