شركة Google تسهل اكتشاف النصوص المولدة بالذكاء الاصطناعي بمنتج جديد
⬤ جعلت Google نظامها الخاص لوسم المخرجات النصية للذكاء الاصطناعي بعلامة مائية مفتوح المصدر.
⬤ تفتح تلك الخطوة فرصاً وإمكانيات واسعة أمام المطورين والشركات لكشف وتحييد محتوى التزييف العميق.
⬤ يفترض أن تحسن هذه الأنظمة من قدرة المستخدمين على تمييز المحتوى الأصلي عن نظيره المولد آلياً.
في مايو الماضي، عزّزت Google نموذج ءGemini للذكاء الاصطناعي بحزمة أدوات SynthID، والتي تعمل على وسم المحتوى المولد بالذكاء الاصطناعي بما يشبه العلامات المائية غير المحسوسة من قبل المستخدمين البشر، ولكنها مألوفة بسهولة للخوارزمية المختصة. واليوم، جعلت منها Google مفتوحة المصدر، واضعة بعضاً من قدرات الوسم والاكتشاف في أيدي المطورين الآخرين.
بعكس ما فعلته OpenAI، تفتح تلك الحركة من Google مجالاً واسعاً من الفرص والاستخدامات في مجال الذكاء الاصطناعي، بالأخص في كشف وتحييد محتوى التزييف العميق وسواه من أنماط المحتوى المسيء المولد بالذكاء الاصطناعي. لكن لا تزال هنالك بعد القيود والحدود التي تقوض تكريس نظام وسم واكتشاف شامل ومكتمل.
تستخدم Google نسخة SynthID لتمييز الأصوات، والفيديوهات، والصور المولدة بواسطة نماذجها الخاصة، بواسطة أساليب متباينة (موضحة في الفيديو أدناه). وفي ورقة بحثية نُشرت على مجلة Nature، يذهب باحثو Google لتفصيل كيفية وضع SynthID لعلامة مائية مميزة في مخرجات نماذج Gemini القائمة على المطالبات النصية.
يعتمد مبدأ عمل نظام العلامات المائية على تسلسل الكلمات المولدة من نموذج الذكاء الاصطناعي، لتقوم خوارزمية «استعيان تسابقي (Tournament Sampling)» بدفعه نحو انتقاء كلمات معيّنة (صياغات رمزية)، لإنشاء توقيع أو بصمة إحصائية يمكن للبرنامج ذي الصلة اكتشافها.
جوهر عملية الوسم بالعلامة المائية هو عبارة عن خوارزمية استعيان مدمجة ضمن الحلقة التكرارية لتوليد الصياغات الرمزية في النموذج اللغوي الكبير؛ وهي التي تختار تسلسل الكلمات استناداً إلى مجموعة معقدة من الروابط الموزونة بين الكلمة وسابقتها. وباستخدام بذرة عشوائية مولَّدة عبر مفتاح مقدّم من Google، تزيد خوارزمية الاستعيان تلك أرجحية ترابط صياغات رمزية مختارة في عملية التوليد. وبعد ذلك، يمكن لوظيفة خاصة بالتقييم قياس متوسط الارتباط عبر أي نص لتحديد احتمالية كونه مولَّداً بواسطة النموذج اللغوي الكبير المزود بالعلامة المائية.
نظراً لطبيعة نظام تسجيل الاحتمالات ذاك، تبدو SynthID أكثر مناعة للتحريف أو الإفساد، نظراً لأن احتمالية الصياغات الرمزية المعطاة في نص ما ستكون متسقة عبر كامل أجزائه، بافتراض عدم تعديلها. وفي حين أن اكتشاف العلامات المائية المزروعة في استجابة حدها الأدنى ثلاث جمل، فإنّ عملية الاستقصاء تبلي بلاءً أفضل مع المخرجات الأكثر طولاً، وفقاً لما أقرّت به Google في الورقة البحثية، على اعتبار أن وجود عدد أكبر من الكلمات يترافق مع «يقين إحصائيّ أعلى عند اتخاذ القرار.»
في يوليو الماضي، انضمت Google إلى ست شركات كبرى أخرى في مجال الذكاء الاصطناعي في تعهد لتطوير تقنية لوسم مخرجات الذكاء الاصطناعي لمساعدة المستخدمين في تمييز التزييف العميق وغيره من أنماط المحتوى الضار. لكن تقريراً في صحيفة Wall Street Journal كشف أن OpenAI كانت مترددة في إطلاق نسختها الخاص على المستوى الداخلي للشركة، متحججة بأن مجرد وجود نسبة خطأ بسيطة قد يعني نتائج كارثية وبالغة التأثير.