شركة OpenAI تعلن عن نموذجَي o3 و o3-mini الجديدين مع قدرات منطقية
⬤ أعلنت OpenAI عن نموذجي o3 وo3-mini، مع تحسينات بارزة في التفكير التسلسلي والمحاكاة الذهنية.
⬤ حقق نموذج o3 أداءً استثنائياً يقارب البشر في عدد من الاختبارات المعيارية لقدرات الذكاء الاصطناعي.
⬤ من المتوقع إطلاق نموذج o3-mini في يناير، تليه نسخة o3، مع إتاحة النماذج للباحثين لاختبارات الأمان.
في اليوم الثاني عشر من مبادرة «12 يوماً من OpenAI»، أعلن سام ألتمان، الرئيس التنفيذي للشركة، يوم الجمعة عن أحدث نماذجها للذكاء الاصطناعي o3 وo3-mini. وهي تطور جديد للبنية العقلية الاصطناعية مقارنة بسلسلة o1 التي جرى إطلاقها في وقت سابق من هذا العام. وبينما لم يتم طرح النموذجَين الجديدَين للاستخدام العام بعد، فهما متاحان حالياً لاختبارات الأمان العامة وللباحثين في المجال.
تعتمد هذه النماذج على تقنية أطلقت عليها الشركة اسم «السلسلة الخاصة من التفكير»، حيث يُجري النموذج وقفات منتظمة لتحليل حواراته الداخلية والتخطيط المسبق قبل تقديم الإجابة. في عملية تشابه «الاستدلال المحاكى (SR)»، وهي تطور يتجاوز النماذج اللغوية الكبيرة التقليدية.
اختارت OpenAI اسم o3 بدلاً من o2 لتجنب أي تعارض محتمل مع العلامة التجارية لمزود الاتصالات البريطاني O2، حسبما أفادت مجلة The Information. وخلال البث المباشر للحدث، أقر ألتمان بتقصد شركته اختيار أسماء مثيرة للجدل.
وفقاً للشركة المطورة نفسها، حقق نموذج o3 أداء استثنائياً في معيار ARC-AGI، وهو اختبار للتفكير المنطقي البصري ظل عصياً على التخطي منذ إنشائه في عام 2019. وقد سجل النموذج نسبة 75.7% في سيناريوهات الحوسبة المنخفضة، و87.5% في سيناريوهات الحوسبة العالية، ما يضعه في مستوى يقارب الأداء البشري.
كما حقق النموذج نسبة 96.7% في امتحان الرياضيات الأمريكي الدعوي (AIME) لعام 2024، حيث أخطأ فقط في سؤال واحد. وعلى معيار GPQA Diamond، الذي يختبر أسئلة متقدمة في علوم الأحياء والفيزياء والكيمياء، وصل النموذج إلى 87.7%. وفي معيار Frontier Math من EpochAI، حل النموذج 25.2% من المشكلات، في حين لم يتجاوز أي نموذج آخر نسبة 2%.
يشمل الإصدار المصغر o3-mini ميزة وقت التفكير التكيفي، حيث يوفر مستويات حوسبة مختلفة تتيح نتائج أفضل مع زيادة القدرة الحاسوبية. وأشارت الشركة إلى أن هذا الإصدار يتفوق على سابقه o1 في معيار Codeforces.
تأتي هذه الإعلانات في وقت تتسابق فيه الشركات لتطوير نماذج الاستدلال المحاكى، حيث أعلنت Google يوم الخميس الفائت عن Gemini 2.0 Flash Thinking Experimental، بينما أطلقت DeepSeek نموذج DeepSeek-R1 في نوفمبر، وطرح فريق Qwen من Alibaba نموذج QwQ كأول بديل «مفتوح» لنموذج o1.
على الرغم من استناد هذه النماذج إلى النماذج اللغوية الكبيرة التقليدية، إلا أنها تضيف بعداً جديداً من خلال تحسين عملية التفكير التسلسلي، مما يعزز القدرة على محاكاة التفكير بدلاً من التركيز فقط على تحسين النماذج أثناء التدريب.
بالعودة إلى نماذج OpenAI الجديدة، فمن المقرر أن تتيحها الشركة للباحثين في مجال الأمان لاختبارها بادئ الأمر. وقد أوضح ألتمان أن الشركة تخطط لإطلاق o3-mini في أواخر يناير، يليه نموذج o3 بفترة قصيرة.