كالبشر، Google تستعرض روبوتات يمكنها التعلم من مشاهدة الفيديوهات

⬤ نجح فريق DeepMind Robotics في Google بتعليم الروبوتات الاستجابة للأوامر والتحرك عبر الفيديو.

⬤ تعتمد الطريقة على مشاهدة فيديوهات تستعرض بيئة معينة، وفهمها، ومن ثم تنفيذ المهام المطلوبة.

⬤ تُظهر الروبوتات نتائج واعدة في مهام متعددة الخطوات، ممّا قد يسمح باستخدامها في المصانع أو للأعمال المنزلية.

منذ بروزه على الساحة التقنية، أظهر الذكاء الاصطناعي التوليدي مقدرات واعدة للغاية في مجال الروبوتات، والحديث هنا عن أشياء مثل تفاعلات باللغة الطبيعية، وإمكانية التعلم، والبرمجة والتصميم حتى.

بناء على تلك الإمكانيات الواعدة، وضمن ورقة بحثية تم نشرها مؤخراً، يستعرض فريق DeepMind Robotics التابع لشركة Google آلية توظيف ذكاء نموذج Gemini 1.5 Pro لتعليم الروبوت الاستجابة للأوامر والتحرك بما يشبه الوعي ضمن حيز مكاني محدد.

يمكن القول إن مشروع DeepMind يستعمل في قسم منه ما تبقى من مشروع Every Day Robots الذي كانت Google قد ألغته في أعقاب حملة تسريح واسعة لموظفيها العام الماضي.

 
 
 
 
 
View this post on Instagram
 
 
 
 
 
 
 
 
 
 
 

A post shared by Google DeepMind (@googledeepmind)

مواضيع مشابهة

في سلسلة من مقاطع الفيديو المرفقة بالمشروع، يستهل موظفو DeepMind مخاطبتهم للروبوت بعبارة مألوفة « OK, Robot»، قبل أن يطلبوا من النظام القيام بمهام مختلفة. والتجسيد الأساسي، كان محاولة الفريق تعليم الروبوتات بالكيفية نفسها التي يتعلم فيها البشر؛ من خلال مشاهدة الفيديوهات. وذلك بالاعتماد على نموذج الذكاء الاصطناعي التوليدي Gemini 1.5 Pro لاستيعاب المعلومات من مقاطع الفيديو، وتعليم الآلة كيفية التنقل، وحتى تنفيذ الطلبات في وجهتها النهائية.

تتيح نافذة السياق الطويلة في نموذج Gemini 1.5 Pro تدريب الروبوتات كما لو أنها متدرب بشري جديد، إذ تسمح بمعالجة كميات هائلة من المعلومات في وقت واحد.

ضمن التجربة، يصور الباحثون جولة فيديو لمنطقة معينة، مثل منزل أو مكتب. ثم يشاهد الروبوت الفيديو ويتعلم عن البيئة المحيطة. وتتيح التفاصيل في جولات الفيديو للروبوت إكمال المهام بناءً على معرفته المكتسبة، باستخدام كل من المخرجات اللفظية والبصرية.

ليست هذه العروض مجرد حالات شاذة أو عشوائية نادرة. ففي الاختبارات العملية، تمكنت الروبوتات التي تعمل بنظام Gemini من العمل ضمن حيز بهو مكاتب مساحته نحو 2,750 متر مربع، ونجحت باتباع أكثر من 50 توجيهاً مختلفاً، وبنسبة نجاح تصل إلى 90%.

يفتح هذا المستوى من الدقة الباب واسعاً أمام العديد من الاستخدامات المحتملة في العالم الواقعي للروبوتات التي تعمل بالذكاء الاصطناعي، سواء في الأعمال المنزلية أو في مهام العمل البسيطة أو حتى الأكثر تعقيداً. ذلك أن إحدى الميزات الأكثر بروزاً في نموذج Gemini 1.5 Pro هي قدرته على إكمال مهام متعددة الخطوات.

لكن مع ذلك، ليس من المنتظر رؤية روبوتات كهذه متاحة لعموم المستهلكين في أي وقت قريب. إذ لا تزال تعاني من نواقص بارزة تعيق انتقالها للمرحلة التطبيقية الشاملة، وأبرزها البطء، حيث تستغرق معالجة كل تعليمة ما يصل إلى 30 ثانية. أضف إلى ذلك مستوى تعقيد بيئات التشغيل وتنوعها مقارنة مع بيئة الاختبار التي جرى فيه تطبيق التجربة.

شارك المحتوى |
close icon