من النص والصورة والصوت إلى فيديوهات عالية الجودة، ما الذي يقدمه Gemini Omni الجديد؟
كشفت جوجل عن Gemini Omni، نموذجها الجديد متعدد الوسائط الذي يُتيح مرحلة جديدة في تجربة إنشاء الفيديو وتعديله باستخدام الذكاء الاصطناعي، مع توفره في العالم العربي عبر عدد من منتجات جوجل.
يأتي هذا الإعلان بعد النجاح الذي حققته قدرات Gemini في إنشاء الصور وتعديلها، خصوصاً من خلال نموذج Nano Banana، الذي ساعد ملايين المستخدمين في ترميم الصور القديمة، وتحويل الرسومات اليدوية إلى تصاميم، وتجسيد الأفكار بصرياً بطرق لم تكن ممكنة سابقاً.
لكن مع Gemini Omni، تنتقل جوجل من مرحلة إنشاء الصور إلى مرحلة أكثر تقدماً، حيث يصبح بإمكان المستخدمين إنشاء مقاطع فيديو عالية الجودة بالاعتماد على مزيج من النصوص، والصور، والمقاطع الصوتية، ومقاطع الفيديو.
إنشاء مقطع فيديو من أي نوع من المدخلات
يعتمد Gemini Omni على قدرة Gemini في الفهم والاستدلال، لكنه يضيف إليها طبقة جديدة من الإبداع البصري؛ إذ يستطيع النموذج فهم المدخلات المتعددة وتحويلها إلى فيديو متكامل يستند إلى معرفة Gemini بالعالم الحقيقي.
وبدلاً من الاعتماد على أوامر معقدة أو أدوات تحرير احترافية، يتيح النموذج للمستخدمين إنشاء مقاطع الفيديو وتعديلها عبر المحادثة باللغة الطبيعية. على سبيل المثال، يمكن تغيير البيئة، أو تعديل حركة الشخصيات، أو إضافة عناصر جديدة، أو إعادة تخيّل مشهد كامل بناءً على تعليمات بسيطة.
وتطرح جوجل النموذج الأول من هذه العائلة تحت اسم Gemini Omni Flash، على أن يتوفر عبر تطبيق Gemini وجوجل Flow وYouTube Shorts، مع خطط مستقبلية لدعم مخرجات أخرى مثل الصور والمقاطع الصوتية.
تحرير الفيديو بالمحادثة
واحدة من أبرز قدرات Gemini Omni هي إمكانية تعديل مقاطع الفيديو من خلال اللغة الطبيعية. فكل أمر جديد يبني على الأمر السابق، مع الحفاظ على اتساق الشخصيات، واستمرارية المشهد، وواقعية الحركة.
ويمكن للمستخدم تغيير تفاصيل محددة داخل الفيديو، مثل الخلفية أو الزاوية أو الأسلوب البصري، أو حتى تحويل المشهد بالكامل إلى بيئة مختلفة تماماً. كما يمكن استخدام فيديو مصوّر سابقاً كمقطع أساسي، ثم الطلب من Omni تغيير الأحداث، أو إضافة شخصيات جديدة، أو تحويل لحظة عادية إلى مشهد غير متوقع. وهذه التجربة تجعل تحرير الفيديو أقرب إلى الحوار، بدلاً من كونه عملية تقنية تعتمد على برامج معقدة وخطوات طويلة.
فهم أعمق للسياق
لا يقتصر Gemini Omni على إنشاء مشاهد تبدو واقعية بصرياً، بل يحاول فهم ما يجب أن يحدث داخل المشهد. ويستند النموذج إلى معرفة Gemini في مجالات مثل الفيزياء، والتاريخ، والعلوم، والسياق الثقافي، مما يساعده في بناء مشاهد أكثر منطقية واتساقاً.
وتقول جوجل إن Omni يمتلك فهماً أفضل لعوامل مثل الجاذبية، والطاقة الحركية، وديناميكيات السوائل، وهو ما ينعكس على جودة المشاهد التي تتطلب حركة واقعية أو تفاعلًا دقيقاً بين العناصر.
كما يمكن استخدام النموذج لتحويل الأفكار المعقدة إلى عروض مرئية توضيحية، مما يجعله أداة مناسبة لصناعة المحتوى التعليمي، والشرح البصري، وسرد القصص، والإنتاج الإبداعي.
مقاطع فيديو بشخصية رقمية وصوت المستخدم
تعمل جوجل أيضاً على تطوير قدرات مرتبطة بالصوت والكلام داخل الفيديو، لكنها تؤكد أنها تختبر هذه الإمكانات بعناية قبل إتاحتها على نطاق أوسع.
وفي المرحلة الأولى، يمكن للمستخدمين إنشاء مقاطع فيديو باستخدام أفاتار رقمي خاص بهم، يظهر بشكل يشبههم ويتحدث بصوتهم. وتصف جوجل هذه الخطوة بأنها جزء من تطوير مسؤول لتقنيات الذكاء الاصطناعي، مع وجود سياسات واضحة للحد من إساءة الاستخدام.
علامة SynthID الرقمية لضمان الشفافية
ستحمل جميع الفيديوهات التي يتم إنشاؤها عبر Gemini Omni علامة جوجل المائية الرقمية غير المرئية SynthID، بهدف تسهيل التحقق من المحتوى الذي تم إنشاؤه باستخدام الذكاء الاصطناعي.
ويمكن التحقق من هذه الفيديوهات عبر تطبيق Gemini، وGemini في Chrome، وبحث جوجل، في خطوة تعزز جهود الشركة في دعم شفافية المحتوى، وفهم كيفية إنشائه أو تعديله عبر الإنترنت.
التوفر
يتوفر Gemini Omni Flash عالمياً ابتداءً من الآن لمشتركي خطط Google AI المدفوعة عبر تطبيق Gemini و Google Flow، كما يبدأ طرحه مجاناً لمستخدمي YouTube Shorts وتطبيق YouTube Create خلال هذا الأسبوع.
ومن المقرر أن يصل النموذج خلال الأسابيع المقبلة إلى المطورين والعملاء من المؤسسات عبر واجهات برمجة التطبيقات؛ مما يفتح الباب أمام دمجه في مزيد من المنتجات والخدمات.
ومع Gemini Omni، تبدو جوجل وكأنها تدفع الذكاء الاصطناعي خطوة إضافية نحو مستقبل تصبح فيه صناعة الفيديو أكثر سهولة ومرونة، حيث يمكن للفكرة أن تتحول إلى مشهد كامل بمجرد وصفها.













