شركات تقنية تعلم على تقليص فجوة اللهجات في أنظمة التعرف على الصوت
بحلول نهاية عام 2018، سيصل مساعد جوجل إلى دعم أكثر من 30 لغة، كما قامت شركة كوالكوم بتطوير نماذج يُمكنها التعرف على الكلمات والعبارات بدقة 95%، وكذلك يستطيع مركز الاتصال في مايكروسوفت نسخ المحادثات بدقة أكبر من البشر.
على الرغم من القفزات التقنية والحدود التي أتاحها التعلم الآلي، فإن أنظمة التعرف على الصوت في الوقت الحالي لم تكن مثالية، فلم تستطع السماعات الذكية المُطوّرة من قبل أمازون وجوجل فهم 30% من اللكنة الإنجليزية الأمريكية.
يُطلق على ذلك اسم التحيز الخوارزمي وهي الدرجة التي تعكس بها نماذج التعلم الآلي مدى التحيز في البيانات والتصميم، وأظهرت التقارير التي لا تُعد ولا تُحصى مدى قابلية أنظمة التعرف على الوجه إلى التحيز وقد لوحظ في الأنظمة الآلية التي تتنبًا ما إذا كان المدعي عليه سيرتكب جرائم في المستقبل أم لا.
طورت شركة مايكروسوفت وقادة آخرون في نفس المجال مثل آي بي إم وفيسبوك أدوات تلقائية للكشف عن التحيز في خوارزميات الذكاء الاصطناعي والتخفيف من حدته، وكن القليل منها يركز على حلول محدةة للتعرف على الصوت.
معالجة “فجوة اللهجة”
تعمل شركة Speechmetrics -وهي شركة متخصصة في برمجيات التعرف على الكلام- على خطة طموحة لتطوير حزمة لغة أكثر دقة وشمولية من أي شركة في السوق وذلك منذ 12 عاماً. سيكون لها جذورها في نمذجة اللغة الإحصائية والشبكات العصبية المتكررة وهو نوع من نماذج التعالم الآلي الذي يمكنه معالجة تتابعات المخرجات في الذاكرة. في عام 2014، قامت بخطوة صغيرة نحو رؤيتها من خلال مجموعة من مليارات الكلمات لقياس التقدم في نمذجة اللغة الإحصائية، وفي عام 2017 تعاونت مع معهد قطر لأبحاث الحوسبة لتطوير الخطاب باللغة العربية.
في يوليو هذا العام، نجحوا في ذلك من خلال حزمة لغوية يُطلق عليها اسم “Global English” وهي نتيجة لآلاف الساعات من البيانات الخاصة بالكلام في أكثر من 40 دولة وعشرات المليارات من الكلمات ويدعم اللهجات الإنجليزية الرئيسية كلها عند الترجمة من الكلام إلى نصوص.
تفوقت هذه الحزمة على الكثير من حزم البيانات الأخرى فهي تحقق نسبة تصل إلى 55% من الدقة، وهناك منصة Burlington التي تسلك العديد من الطرق لفهم نماذج التعرف على الصوت للمتحدثين بلغة متقاربة للثمانين لغة التي تدعمها منتجات شركة جوجل، كما أنها دعمت 20 لهجة مختلفة في المملكة المتحدة.
كلما زادت البيانات كان ذلك أفضل
في نهاية المطاف، تظل مشكلة الفجوة في تمييز الصوت في البيانات نفسها، كلما زادت كمية وتنوع عينات الكلام ولهجاتها كلما كان النموذج أكثر دقة، فقد صرح المتحدث بإسم أمازون أن مساعد أليكسا يتحسن مع مرور الوقت نتيجة للتعامل مع شريحة كبيرة من اللهجات المختلفة وتعهدت كذلك شركة جوجل في بيان لها أن يستمر تحسين عملية التعرف على الكلام في مساعد جوجل.