جوجل تطرح أداة ذكاء اصطناعي تحول الأوامر المكتوبة إلى موسيقى
⬤ أطلقت جوجل أداة جديدة تستخدم الذكاء الاصطناعي لإنتاج الألحان الموسيقية حسب الطلب.
⬤ وفق الشركة، فالأداة قادرة على إنتاج موسيقى بشرية لا يمكن تمييزها عن الموسيقى التي يؤلفها البشر.
⬤ لم يتم طرح الأداة للعامة بعد بسبب مخاوف حقوق الملكية والدعاوى من العلامات الموسيقية الكبرى.
كشفت شركة جوجل عن أحدث ابتكاراتها في مجال الذكاء الاصطناعي، وهي أداء توليد للموسيقى قادرة على تحويل أمر نصي قصير إلى أغنية أو مقطوعة موسيقية، بيد أن المخاوف القانونية قد تحول دون مشاركة هذا الابتكار مع الجمهور.
وكان عام 2022 قد شهد ثورة كبيرة في مجال الذكاء الاصطناعي، خاصة عندما أطلقت شركة OpenAI روبوت المحادثة ChatGPT ومنصة إنشاء الصور بالذكاء الاصطناعي DALL-E 2، وترافق ذلك مع ظهور أنظمة أخرى متقدمة من الذكاء الاصطناعي مع قدرات على إنشاء الصور أو النصوص حسب طلبات وتعليمات المستخدمين. ولم يقتصر الأمر على ما سبق، فقد عمدت الشركات إلى تدريب أنظمة الذكاء الاصطناعي بحيث تستطيع إنشاء الموسيقى بما يتناسب مع النصوص أو الصوت أو الصور. ولعل أبرز الأمثلة عليها هو أداة Jukebox التي أطلقته شركة OpenAI عام 2020.
ومع ذلك لم يتحمس كثيرون لهذه الأدوات الموسيقية مثل حماسهم لأدوات إنشاء النصوص أو الصور، ومرجع ذلك إلى أن نتائجها عادية جداً؛ فمعظمها منخفض الجودة والدقة، ومفتقر إلى الهيكل الأساسي للأغنية. بيد أنه طرأت تحسينات كثيرة على هذه الأدوات، ولعل أبرزها حالياً هو أداة MusicLM من جوجل، التي تنشئ الموسيقى باستخدام الذكاء الاصطناعي؛ فهي قادرة على إنشاء مقاطع صوتية مدتها 5 دقائق بما يتناسب مع النص المُدخَل. وصحيح أن هذه المقاطع الصوتية ليست بجودة عالية، غير أنها أشبه بأغاني البشر منها إلى الموسيقى المنشأة باستخدام أنظمة الذكاء الاصطناعي الأخرى.
واستعانت جوجل بأكثر من 280 ألف ساعة من التسجيلات الموسيقية لتدريب أداة MusicLM، واستخدمت لهذا الغرض نموذج MuLan، وهو نموذج مُدرب على ربط الموسيقى بالأوصاف المكتوبة بلغة طبيعية. وبعد ذلك أنشأت الشركة MusicCaps، وهي قاعدة بيانات تضم ما يربو عن 5500 تسجيل موسيقي متاح للجمهور بغرض تقييم مستوى المقاطع الموسيقية التي ينتجها نظام الذكاء الاصطناعي. ووضع خبراء موسيقيون تسميات توضيحية لكل مقطع، وأضافوا لوصف كل واحد منها وتصنيفها حسب النوع مثلاً.
وقارنت جوجل بعدها بين MusicLM وبين اثنين من أنظمة الذكاء الاصطناعي القادرة على تحويل النص إلى موسيقى، وهما Mubert و Riffusion، واعتمدت لهذه الغاية مجموعة من المقاييس الكمية لتقييم جودة الصوت في المقطع الموسيقي، ومدى التزامه بالنص. وأعطت جوجل خبراء التقييم الأوصاف التوضيحية لقاعدة البيانات MusicCaps ومقطعين موسيقيين؛ قد يكونان كلاهما من إنشاء الذكاء الاصطناعي، أو يكون أحدهما من إنتاج الذكاء الاصطناعي والآخر من الموسيقى التي أخذت منها قاعدة البيانات وصفها وشرحها. طلب جوجل من الخبراء انتقاء أي المقاطع الموسيقية أمثل تطابقاً مع الأوصاف المعطاة. ونشر باحثو جوجل نتائجهم ضمن ورقة علمية مشيرين فيها إلى تفوق أداة MusicLM على الأنظمة الأخرى في جميع المجالات.
وعلى العموم ربما تستطيع أداة MusicLM إنتاج موسيقى قريبة من الموسيقى التي يبدعها البشر، ولكنها ما تزال عاجزة عن محاكاة هيكل الأغاني التقليدية، خاصة أنّ جودة الموسيقى التي تنتجها منخفضة جداً، وكلماتها غير مفهومة. ومع ذلك ترى جوجل إن التحسينات المستقبلية ستركز على معالجة هذه المشكلات، وتحسين الجودة الإجمالية للصوت، والتخلص من المشكلة التي تحول دون إطلاق هذه الأداة للجمهور؛ والمقصود هنا الإشكالية القانونية المتعلقة بنسبة التطابق التي تقدر بنحو 1% بين موسيقى وبين قاعدة بيانات التدريب.
وكتب الباحثون بخصوص هذه الأمر: “إننا نقر بمخاطر الاختلاس الفكري المحتمل للمحتوى الإبداعي المرتبط بهذه المسألة، وإننا نشدد على ضرورة إجراء تحسينات مستقبلية لتلافي المخاطر المرتبطة بتوليد الموسيقى عبر أنظمة الذكاء الاصطناعي”.