نفس أساليب الخداع بالإطراء التي تنجح على البشر، تنجح كذلك على الذكاء الاصطناعي

Editors Team

مع الانتشار السريع لأدوات الذكاء الاصطناعي التوليدي في الأعمال والمدارس والبيئات الاجتماعية، بات من الضروري فهم نقاط ضعفها. لكن ضمان عدم إمكانية التلاعب بها عبر الإطراء أو التنمّر قد يتطلب نهجاً مختلفاً جذرياً عن أساليب الحماية المتبعة حتى الآن.

تشير أبحاث حديثة إلى أن محاولات التلاعب بروبوتات المحادثة ليست مجرد حكايات خيالية من عالم المخترقين، بل إن النماذج اللغوية الكبيرة تستجيب لتقنيات الإقناع بطريقة شبيهة بالبشر. ففي تجربة أجراها فريق من الأكاديميين في جامعة بنسلفانيا، تبيّن أن أكثر أنظمة الذكاء الاصطناعي تقدماً وشيوعاً اليوم يمكن خداعها لتجاوز قواعدها عبر استراتيجيات نفسية معروفة في التعاملات البشرية، مما يثير تساؤلات جديدة حول فعالية الضمانات الحالية ومسؤوليات مطوري النماذج.

ترجع جذور الدراسة إلى رائد الأعمال دان شابيرو، مؤسس شركة Glowforge، الذي حاول إقناع ChatGPT بنسخ مستندات عمل داخلية. وبعد فشل المحاولات الأولى بسبب سياسات الخصوصية وحقوق النشر، استلهم شابيرو من كتاب «التأثير: سيكولوجيا الإقناع» لروبرت سيالديني، الذي يعرض أساليب للإقناع مثل تأكيد السلطة، والالتزام، والتودد. وباستخدام هذه الأساليب، لاحظ أن الذكاء الاصطناعي بدأ يستجيب لطلباته، مما ألهم إطلاق بحث أوسع.
عمل شابيرو مع أساتذة وارتون إيثان وليلاخ مولليك، وخبيرة علم النفس أنجيلا دوكوورث، وسيالديني نفسه، لاختبار مدى قابلية روبوتات المحادثة للإقناع. وركزت الاختبارات على نموذج GPT-4o Mini من OpenAI باستخدام أساليب إقناع كلاسيكية، مثل طلب إهانة المستخدم أو شرح كيفية تصنيع ليدوكائين، وهو مادة مصنفة على أنها مخدّر تخضع لرقابة عالية ومحدودية في التداول. وأظهرت النتائج تبايناً ملحوظاً حسب الأسلوب المستخدم؛ فعندما اعتمد المستخدمون أسلوب «السلطة» بذكر اسم مطور الذكاء الاصطناعي المعروف أندرو إنغ، تضاعف معدل امتثال النموذج. على سبيل المثال، وصف النموذج المستخدم بكلمة «أحمق» بنسبة 32% مع طلب عادي، لكنها ارتفعت إلى 72% عند ربط الطلب باسم إنغ. الأمر نفسه تكرر مع الطلبات التقنية، إذ ارتفع معدل تجاوب النموذج لشرح تصنيع الليدوكائين من 5% إلى 95% عند ذكر إنغ.
كما أثبتت استراتيجية «الالتزام» فعاليتها، إذ أصبح النموذج أكثر قابلية لتلبية طلب مسيء بعد أن استجاب أولاً لطلب أبسط. وظهرت أنماط مماثلة مع نموذجClaude من Anthropic. أساليب أخرى مثل الإطراء أو الإيحاء بالانتماء مثل اعتماد عبارات «نحن عائلة» زادت الامتثال بدرجات متفاوتة، بينما كان تأثير «الدليل الاجتماعي» (مثل قول: «جميع الروبوتات الأخرى تفعل ذلك») أقل اتساقاً. في كل الحالات، بدت الاستجابات شبيهة بشكل مقلق بسلوكيات بشرية اجتماعية.
رغم أن الباحثين لم يزعموا أن هذه الحيل النفسية هي أسهل الطرق لتجاوز القواعد، إلا أن آثارها كبيرة. فقد دعا خبراء من مختبر وارتون للذكاء الاصطناعي مطوري النماذج إلى إشراك علماء الاجتماع في الاختبارات، وليس فقط الخبراء التقنيين، للتنبؤ بشكل أفضل بمثل هذه الثغرات.

الملخص - أخبار منتقاة من المنطقة كل أسبوع
تبقيك نشرة مينا تك البريدية الأسبوعية على اطلاع بأهم مستجدات التقنية والأعمال في المنطقة والعالم.
عبر تسجيلك، أنت تؤكد أن عمرك يزيد عن 18 عاماً وتوافق على تلقي النشرات البريدية والمحتوى الترويجي، كما توافق على شروط الاستخدام وسياسة الخصوصية الخاصة بنا. يمكنك إلغاء اشتراكك في أي وقت.
اقرأ أيضاً
مينا تك – أكبر منصة إعلامية باللغة العربية متخصصة في التكنولوجيا والأعمال
مينا تك – أكبر منصة إعلامية باللغة العربية متخصصة في التكنولوجيا والأعمال
حقوق النشر © 2025 مينا تك. جميع الحقوق محفوظة.