نقطة ضعف وحيدة تسببت بانقطاع خدمات AWS الأخير – الشركة تؤكد التفاصيل
قبل أسبوعين، تسبب انقطاع في خدمات أمازون ويب سيرفسز (AWS) بتعطيل عشرات المنصات الرقمية الكبرى حول العالم، ما أدى إلى توقف مؤقت في خدمات مثل متجر أمازون، والمساعد الذكي Alexa، وكاميرات Ring، ومنصات Snapchat، وReddit، ولعبة Fortnite، وحتى روبوت المحادثة ChatGPT ومتجر Epic Games. واستمر الانقطاع قرابة 16 ساعة، حيث انتشرت آثاره عالمياً قبل أن تعيد AWS عملياتها بعد معالجة سلسلة من «الأخطاء المتتابعة» كما وصفتها الشركة.
وفقاً لبيان نشرته أمازون، بدأ الانقطاع عند الساعة 11:48 مساءً بتوقيت المحيط الهادئ يوم 19 أكتوبر (10:48 صباحاً يوم 20 أكتوبر بتوقيت الإمارات)، عندما واجه المستخدمون تأخراً واسع النطاق في الاستجابة وأخطاء في الاتصال ضمن منطقة US-EAST-1 (شمال ولاية فيرجينيا الأمريكية). وقد حددت الشركة المشكلة بأنها خلل في نظام حل أسماء النطاقات (DNS) الخاص بنقطة الوصول إلى واجهة برمجة تطبيقات DynamoDB.
تمكن المهندسون من إصلاح الخلل خلال نحو 11 ساعة، إلا أن الخدمات المتأثرة احتاجت حوالي 16 ساعة إجمالاً للتعافي الكامل، وهو ما قاد إلى مشاكل عدة وانقطاعات خدمات عبر مناطق زمنية ودول مختلفة.
مثل هذا النوع من الأعطال ليس نادراً بين مزودي الخدمات السحابية الكبار، إلا أن نطاقه الواسع أثار تساؤلات كثيرة حول كيفية حدوث انقطاع بهذا الحجم بالنظر إلى كون الإنترنت اليوم هي في شبكة موزعة جغرافياً.
ووفقاً لموقع Ars Technica، كان سبب الانقطاع خطأً برمجياً في مكوّن إدارة DNS المستخدم في نظام DynamoDB، أحد أنظمة قواعد البيانات الرئيسية لدى AWS. أدى هذا الخطأ إلى ما يُعرف باسم Race Condition، وهي تعارض زمني بين عمليتين متزامنتين. أدت هذه المشكلة إلى استبدال خطة DNS جديدة بأخرى قديمة، الأمر الذي أدى إلى حذف عناوين بروتوكول الإنترنت لنقطة وصول إقليمية أساسية.
أدى هذا الخطأ الفردي إلى توقف DynamoDB، وبالتالي تعطلت العديد من الخدمات المعتمدة عليه، بما في ذلك خدمات الوصول إلى البيانات، أو المصادقة، أو التوجيه، مما تسبب في سلسلة من الانقطاعات الواسعة.
أظهرت بيانات منصة Downdetector التابعة لشركة Ookla حجم التأثير، حيث تم تسجيل أكثر من 17 مليون بلاغاً عن انقطاع من مستخدمين في 60 دولة. وكانت أكثر الخدمات تأثراً هي Snapchat، وRoblox، وReddit، وخدمات أمازون للبيع بالتجزئة، وRing. كما طالت الانقطاعات مواقع حكومية، ومؤسسات مالية، وأدوات تعليمية تأثرت جميعها بسبب الخلل الإقليمي نفسه.
تُعد منطقة US-EAST-1 أقدم مناطق مراكز بيانات أمازون وأكثرها استخداماً حتى اليوم، وتشكل العمود الفقري للبنية التحتية السحابية الخاصة بالشركة. ورغم أن اسم المنطقة يوحي بأنها مخصصة للولايات المتحدة فحسب، إلا أن العديد من الخدمات العالمية تستمر بالاعتماد عليها في وظائف حيوية حتى اليوم، وهو يبرز نقطة ضعف جوهرية في الإنترنت الذي كان من المفترض أن يكون شبكة لامركزية.
بعد إصلاح الخطأ الأساسي، سارعت أمازون إلى معالجة الثغرة الجذرية، حيث أوقفت التشغيل الآلي لنظام DNS الخاص بخدمة DynamoDB عالمياً، وأعلنت خططاً لإعادة تصميم النظام لمنع تكرار مثل هذه الحالات.
ورغم أن مدة الانقطاع وتأثيره كانتا محدودتين نسبياً، إلا أن الحادثة شكلت تذكيراً صارخاً بأهمية تنويع البنية التحتية. فشبكة مراكز بيانات AWS هي واحدة من الأكثر انتشاراً جغرافياً في العالم، لكن الانقطاع أظهر أن التنوع المكاني وحده لا يكفي، بل أن التكرار البرمجي (Software Redundancy) ضروري أيضاً، وهو أمر كان قد أكده انقطاع CrowdStrike في عام 2024، والذي ترك أثره عالمياً بسبب تحديث واحد خاطئ في برمجيات الحماية.
كما أعادت الحادثة تسليط الضوء على أهمية مفهوم «السحابة السيادية» الذي يشكل محوراً رئيسياً في جهود التحول الرقمي في كل من الإمارات والسعودية. حيث لطالما اهتمت الحكومات الإقليمية بفكرة السحابة السيادية، وأكد الانقطاع الأخير أهمية هذا التوجه، حيث إن معظم الخدمات الحيوية في البلدين لم تتأثر أو واجهت تأثيراً طفيفاً، بفضل استضافتها وتشغيلها محلياً على خوادم مستقلة.
عندما بدأت ملامح الإنترنت في سبعينيات القرن الماضي، كانت معظم الأجهزة المتصلة محصورة في مراكز أبحاث وجامعات محدودة، وعلى الرغم من الحجم الصغير للشبكة إجمالاً، فقد كانت متنوعة نسبياً. والمفارقة أن توسع عدد المستخدمين لاحقاً لم يؤدِ إلى مزيد من التنوع، بل إلى العكس، حيث باتت الشبكة مستقطبة أكثر مع اندماج الشركات العاملة في المجال وظهور شركات عملاقة، بالأخص في عصر البنى التحتية السحابية. وتم استبدال الخوادم المحلية المملوكة للأفراد أو الشركات بحلول أكثر ملائمة، لكن أكثر مركزية. واليوم، تحتاج هذه المركزية إلى إعادة النظر في فوائدها وعيوبها من قبل الحكومات وشركات الخدمات التقنية على حد سواء.
اليوم، لم تعد الخدمات الرقمية تصنف كرفاهية، خصوصاً في قطاع الأعمال، لذا بات من المهم النظر إلى الانقطاعات في الخدمات الرقمية بجدية توازي الجدية التي ينظر بها إلى الانقطاعات التي تواجه شبكة الكهرباء والبنى التحتية الحيوية الأخرى. لذلك، يوصي الخبراء بأن يعتمد مزودو الخدمات على بنى متعددة المناطق (Multi-Region Architectures)، وأن ينوعوا مصادرهم، ويجروا محاكاة واقعية لحالات الكوارث لتجنب الانقطاعات المتسلسلة. وتشير التقارير إلى أن AWS بدأت فعلاً بتطبيق هذه الاستراتيجيات، لكننا سنحتاج الانتظار لنرى مدى فعالية هذه المقاربة.























