قبل سنوات قليلة فقط، كانت وحدات معالجة الرسوميات مرتبطة بالدرجة الأولى بالألعاب، وبرمجيات التصميم، والنمذجة، والإنتاج، وربما بشكل جزئي بتعدين العملات المشفرة التي كانت تمر بفترة انتشار وتوسع مهمة. لكن وبالوصول إلى اليوم باتت وحدات معالجة الرسوميات تعامل على أنها أهم المكونات التقنية التي يتابع أخبارها الجميع بداية من قادة كبرى شركات العالم وحتى المستخدمون الأفراد المهتمون بالتقنية، ويأتي هذا التحول الكبير في المواقف نتيجة الذكاء الاصطناعي. لكن وبينما تحظى معالجات الرسوميات بالكثير من الاهتمام اليوم، فمن المهم النظر كذلك إلى الدور الهائل الذي تلعبه وحدات المعالجة المركزية للمضيف في هذه العملية.
من حيث المبدأ، تقوم معالجات الرسوميات بتنفيذ العمليات الحسابية لنماذج الذكاء الاصطناعي، لكن وبينما تفعل ذلك، يحتاج النظام أيضاً لوحدات المعالجة المركزية للمضيف والتي تتحكم بتدفق البيانات وحركتها، وتدير طلبات الاستدلال، وتقوم بجدولة أحمال الأعمال المطلوبة. ومع أعباء العمل الحديثة، بات هناك حاجة متزايدة للاعتماد على وحدات معالجة مركزية مخصصة للذكاء الاصطناعي (مثل معالجات AMD EPYC)، حيث تساعد هذه المعالجات في تحسين أداء تطبيقات الذكاء الاصطناعي وتجاوز الصعوبات التي تسببها المعالجات البطيئة أو غير المخصصة والتي يمكن أن تزيد التكاليف، وتقلل من قابلية النمو، بالإضافة لرفع تكاليف الاستدلال وعدم الاستغلال الكامل لمعالجات الرسوميات المستخدمة.
المعالجات منخفضة الأداء تحد قدرات أنظمة الذكاء الاصطناعي
لدى الحديث عن كون بعض أنواع المهام مرتبطة بأجزاء محددة من الأنظمة (مثل معالجات الرسوميات، أو مسرعات الذكاء الاصطناعي، أو الذاكرة)، يمكن أن يوصل ذلك فكرة خاطئة بكون الأنظمة المخصصة لأحمال عمل معينة يجب أن تركز على الأجزاء المرتبطة بأحمال العمل فحسب، والاكتفاء بالحد الأدنى للمكونات الأخرى. لكن عند تطبيق هذه المقاربات على أحمال العمل الواقعية، سرعان ما يظهر التباين بين هذه الأنظمة ونظيرتها المتوازنة. حيث تحتاج الأنظمة لأن تكون متوازنة لتجنب وجود أي اختناقات أداء ممكنة. وفي حالة أحمال عمل الذكاء الاصطناعي التي تركز على بطاقات الرسوميات والمسرعات بالدرجة الأولى، يمكن لاستخدام معالج دون المستوى المطلوب أن يترك الكثير من الضرر على الأداء وحتى استهلاك الطاقة.
من حيث المبدأ، يمكن أن تتجلى المحدوديات واختناقات الأداء المرتبطة بالمعالجات بحالات مثل:
معدل إشغال منخفض لوحدات معالجة الرسوميات
في حال استخدام معالجات ضعيفة ولا تمتلك القدرة الكافية على توزيع المهام، يمكن أن ينخفض إشغال مسرعات الذكاء الاصطناعي بشكل كبير لأنها لا تحصل على مدخلات كافية لإشغالها الكامل. ويترجم ذلك على شكل تأخير في الاستدلال وانخفاض في قدرة الأداء الإجمالية.
أداء سيء للذاكرة
في حال عدم امتلاك وحدة المعالجة المركزية لعرض نطاق ترددي كافٍ، يمكن أن يؤدي ذلك للعديد من عمليات الإبطاء الناتجة عن بطء نقل بيانات الدخل والخرج من وإلى الذاكرة. وفيما عادة ما تكون سرعة الذاكرة المنخفضة عقبة كبرى بحد ذاتها، فمن غير المفيد أن يمتلك النظام ذاكرة عالية السرعة في حال لم تكن وحدة المعالجة المركزية قادرة على استغلالها بالشكل الصحيح.
بطء تشغيل النماذج والانتقال بين المهام
فيما أن مهام الاستدلال تتم عبر مسرعات الذكاء الاصطناعي، هناك في الواقع العديد من المهام التي تجري معالجتها عبر وحدة المعالجة المركزية. حيث يكون معالج المضيف مسؤولاًَ عن مهام مثل بدء تشغيل نموذج الذكاء الاصطناعي، والتحكم بتدفق البيانات، وحتى المعالجة الأولية للبيانات في بعض الحالات. وفي حال كانت وحدة المعالجة المركزية غير كفؤة لأداء هذه المهام، يمكن أن يسبب ذلك ضياعات صغيرة لكنها تتراكم بسرعة لتحدث فرقاً ملحوظاً في الأداء.
وحدة المعالجة المركزية للمضيف حجر أساس لأداء الذكاء الاصطناعي
مؤخراً، نشر باحثون في شركة AMD، رائدة صناعة المعالجات ومعالجات الرسوميات، ورقة بحثية بعنوان Maximize AI GPU Efficiency with AMD EPYC High Frequency Processors (ارفع كفاءة معالجات رسوميات الذكاء الاصطناعي للحد الأقصى بالاعتماد على معالجات AMD EPYC عالية التردد). وتناولت الورقة البحثية تجارب قام بها فريق AMD في العالم الحقيقي لتقدير الأثر الذي يمكن أن يحدثه استخدام المعالجات عالية التخصيص لمهام الذكاء الاصطناعي على مهام الاستدلال باستخدام أحدث معالجات الرسوميات المتاحة. وأظهرت الدراسة أن استخدام معالجات AMD EPYC 9575F تمكن من تحسين أداء الاستدلال بمتوسط %8 لمسرعات Nvidia H100 و%9 لمسرعات AMD Instinct MI300

يأتي تحسن الأداء آنف الذكر لدى اعتماد وحدة معالجة مركزية للمضيف مخصصة لأحمال عمل الذكاء الاصطناعي كدليل قوي لأهمية دور المعالج في هذا النوع من العمليات. حيث أن وحدات المعالجة المركزية تنفذ العديد من المهام الأساسية التي تتضمن: استحضار البيانات والمعالجة المسبقة لها، ومعالجة طلبات الاستدلال، والجدولة عالية الكفاءة لأحمال عمل بطاقات الرسوميات، وتصحيف الذاكرة لتجنب اختناقات الأداء، وبالطبع إدارة المخرجات وإعادتها للمستخدم في المرحلة النهائية.
بالنظر إلى التطور الكبير الذي مرت به مسرعات الذكاء الاصطناعي في السنوات الأخيرة من حيث قوة أدائها وإمكانية ربطها، فقد بات من الضروري تزويد الأنظمة الحديثة بمعالجات مضيف قوية وقادرة على تقديم الأداء الأفضل وتجنب اختناقات الأداء بمختلف أنواعها.
التوازن هو المقاربة الأفضل لتحسين الأداء
عندما يقوم المستخدم بطلب استدلال من النظام، يمر هذا الطلب بعدة مراحل للوصول إلى الخرج المناسب. حيث تبدأ الرحلة من خادم واجهة برمجة التطبيقات للاستدلال، والذي يرتب الطلبات ويرسلها إلى محرك وقت التشغيل العامل على وحدة المعالجة المركزية. حيث يقوم محرك وقت التشغيل بتنفيذ العديد من المهام اللازمة والتي تتضمن تجميع الأوامر وتصحيف الذاكرة المؤقتة وسواها. وبعد تلك المهام تصل البيانات بعد تحضيرها وتخصيصها إلى وحدة معالجة الرسوميات التي تقوم بتنفيذ مهام الاستدلال وإرسال خرجها إلى وحدة المعالجة المركزية التي تعالج المخرجات قبل تقديم النتائج النهائية للمستخدم.
ضمن هذه السلسلة من الخطوات، تمر البيانات وجميع مكونات الأنظمة والعناصر الواصلة بينها كذلك، وأي انقطاع أو ضيق في السلسلة يعني خسارة الأداء والحصول على نتائج دون الحالة المثالية. لذا يكرر الخبراء أهمية تصميم الأنظمة بشكل متوازن، وبالنظر لموقع وحدة المعالجة المركزية كالعقل الذي يتحكم بمختلف أجزاء السلسلة ويوجهها، فمن المهم الحصول على معالجات عالية الأداء ومصممة خصيصاً للتعامل مع أعباء الذكاء الاصطناعي مثل معالجات AMD EPYC.