الذكاء الاصطناعي يتعلم باستخدام مقاطع فيديو اليوتيوب
يتميز الكائن البشري بقدرته على التحليل والربط. وفهم الأحداث من خلال السياق. ويقوم بما يسمى بالتفكير متعدد الوسائط من خلال أزمان مختلفة، لفهم الماضي والحاضر والمستقبل وربطه بين الأحداث المنفصلة. على أي حال، حتى أفضل أنظمة الذكاء الاصطناعي وأكثرها تطورًا تواجه صعوبة في هذا الخصوص. لكن قد تحدث بعض التطورات التي تغير من مسار الأمور. وبدأت من فريق في معهد Allen للذكاء الاصطناعي وجامعة واشنطن لعلوم الحاسوب والهندسة.
قام الباحثون بالتفصيل بنماذج معرفة النصوص العصبية متعددة الوسائط (Merlot). وهو نظام يتعلم مطابقة الصور في مقاطع الفيديو بالكلمات، وحتى متابعة الأحداث على مستوى العالم بمرور الوقت من خلال مشاهدة ملايين مقاطع الفيديو على يوتيوب مع الكلام المنسوخ. يقوم بكل هذا بطريقة غير خاضعة للرقابة، مما يعني أنه لم يتم تصنيف مقاطع الفيديو، مما يجبر النظام على التعلم من الهياكل المتأصلة في مقاطع الفيديو.
فيسبوك تدرّب الذكاء الاصطناعي باستخدام مقاطع الفيديو
تشكلت قدراتنا على التحليل والفهم من خلال فهمنا للنتائج، والأسباب المؤدية لظاهرة معينة. لكن يعد تعليم الآلات هذا النوع من “المعرفة النصية” تحديًا كبيرًا. ويرجع ذلك جزئيًا إلى كمية البيانات التي تتطلبها. يحاول Merlot استيعاب هذه المفاهيم من خلال مشاهدة الكثير من مقاطع اليوتيوب. بالاعتماد على مجموعة بيانات من 6 ملايين مقطع فيديو، قام الباحثون بتدريب النموذج لمطابقة الإطارات الفردية مع تمثيل سياقي لنصوص الفيديو، مقسمة إلى أجزاء. تضمنت مجموعة البيانات المحلة إلى نموذج الذكاء الاصطناعي مدونات فيديو حول نمط الحياة للأحداث اليومية ومقاطع فيديو مقترحة تلقائيًا على يوتيوب لموضوعات شائعة مثل “العلوم” و “تحسين المنزل”. كما تم اختيار هذه المواضيع بشكل خاص لتشجيع النموذج على التعرف على مجموعة واسعة من الكائنات والإجراءات و مشاهد.
قد يهمك أيضًا:
يوتيوب يقيد بعض أهم أنواع الأعلانات عليه، لكن ما السبب؟
يوتيوب سيجعل التّسوق أسهل من اليوم
Merlot هو فقط أحدث عمل حول فهم الفيديو في مجتمع أبحاث الذكاء الاصطناعي. في عام 2019، أنشأ باحثون في معهد جورجيا للتكنولوجيا وجامعة ألبرتا نظامًا يمكنه تلقائيًا إنشاء تعليقات لألعاب الفيديو. في الآونة الأخيرة، نشر باحثون في مايكروسوفت ورقة بحثية تصف نظامًا يمكنه تحديد ما إذا كانت العبارات حول مقاطع الفيديو صحيحة من خلال التعلم من القرائن المرئية والنصية. وقام فيسبوك بتدريب نظام رؤية كمبيوتر يمكنه تلقائيًا تعلم التمثيلات الصوتية والنصية والمرئية من مقاطع فيديو فيسبوك المتاحة للجمهور.