وثائق محكمة: OpenAI استخدمت مئات آلاف الكتب لتدريب نماذجها وحذفتها لاحقاً

دعاوى من نقابة المؤلّفين الأمريكيّين بانتهاك OpenAI لحقوق الملكيّة الفكريّة.

⬤ تواجه شركة OpenAI دعوى قضائية كبرى بخصوص استخدمها لمواد محمية بحقوق ملكية لتدريب نماذجها للذكاء الاصطناعي.

⬤ أظهرت التحقيقات أن الشركة استخدمت مئات آلاف الكتب المحمية بحقوق ملكية لتدريب GPT-3، لكنها حذفتها لاحقاً لإخفاء الأمر.

⬤ هناك اليوم صراع جارٍ بين داعمي حقوق الملكية والمحتوى المحمي ونماذج الذكاء الاصطناعي التي تستغل هذا المحتوى في التدريب.

كشفت وثائق رُفعت السّرّية عنها حديثاً في دعوى قضائيّة جماعيّة رفعتها نقابة المؤلّفين الأمريكيّين ضدّ OpenAI، أنّ الشرّكة النّاشئة أقدمت على حذف مجموعتي بيانات ضخمتين، أُطلق عليهما “الكتب 1” و”الكتب 2″، واللّتين استُخدمتا لتدريب نموذج الذّكاء الاصطناعيّ GPT-3 الخاصّ بها.

قال محامو نقابة المؤلّفين في مذكّرات المحكمة إنّ مجموعات البيانات على الأرجح تحتوي على «أكثر من مئة ألف كتاب منشور»، وهي محور مزاعمهم بأنّ OpenAI استخدمت موادّ محميّة بحقوق النّشر في تدريب نماذج الذّكاء الاصطناعيّ.

على مدى أشهر، استمرّت النّقابة في طلب معلومات من OpenAI حول مجموعات البيانات. وقد قاومت الشّركة في البداية، مشيرة إلى مخاوف بشأن السّرّيّة، قبل أن تكشف في النّهاية عن أنّها حذفت جميع نسخ البيانات، وفقاً للملفّات القانونيّة الّتي جرى استعراضها.

مواضيع مشابهة

تُعتَبَر بيانات التّدريب عالية الجودة جزءاً مهمّاً من نماذج الذّكاء الاصطناعيّ القويّة الّتي يهتزّ العالم التّقنيّ على وقعها اليوم، إذ استخدمت OpenAI وشركات أخرى بيانات من الإنترنت، بما في ذلك العديد من الكتب، لبناء هذه النّماذج. ترغب العديد من الجهات المالكة أو تلك الّتي أنشأت هذه المعلومات في الحصول على مقابل ماليّ لتوفير هذا “الذّكاء” لمنتجات الذّكاء الاصطناعيّ الأخيرة، في الوقت الّذي تُقاوم شركات التّقنيّة فرض الدّفع عليها، ويجري الآن خوض هذا النّزاع في المحكمة من خلال دعاوى قضائيّة عدّة.

في ورقة بحثيّة صدرت عام 2020، وصفت OpenAI مجموعتي البيانات “الكتب 1” و “الكتب 2” بأنها “مجاميع كتب الإنترنت” وقالت إنّها تشكّل 16% من بيانات التّدريب الّتي دخلت في إنشاء GPT-3. كما تقول الورقة أيضاً إنّ مجموعتَي “الكتب 1” و “الكتب 2” تحويان معاً على 67 مليار رمزاً من البيانات، أو ما يعادل تقريباً 50 مليار كلمة. على سبيل المقارنة، تحتوي رواية الجريمة والعقاب للكاتب الرّوسيّ فيودور دوستويفيسكي على ما يزيد عن مئتَي ألف كلمة.

وتشير الرّسالة التي رُفعت عنها السّرّيّة من محامي OpenAI، والتي عُنونت تحت سمة “سرّيّ للغاية ـ لاطّلاع المحامين فقط”، إلى أنّ استخدام مجموعتَي “الكتب 1” و “الكتب 2” لتدريب النموذج توقّف في أواخر عام 2021، وجرى حذف مجموعات البيانات في منتصف عام 2022 بسبب عدم الاستفادة منها. ويذهب البيان ليؤكّد أنّ أياً من البيانات الأخرى المستخدمة لتدريب GPT-3 لم يُصرَ إلى حذفها، وعرض على محامي نقابة المؤلّفين الوصول إلى تلك المجموعات الأخرى.

كما تكشف الوثائق الّتي رُفعت السّرّيّة عنها أنّ الباحثَين اللّذين أشرفا على إنشاء “الكتب 1” و “الكتب 2” لم يعودا يعملان لدى OpenAI. مع الإشارة إلى أنّ الشّركة كانت قد رفضت في البداية الكشف عن هويّة ذلكما الموظّفين، لكنّها بعد ذلك أقدمت على التّعريف بهما أمام محاميي نقابة المؤلّفين، بيد أنّها لم تكشف عن أسمائهم علناً، وتقدّمت بطلب إلى المحكمة للحفاظ على سرّيّة أسماء الموظّفين الاثنين، بالإضافة إلى سرّيّة معلومات حول مجموعات البيانات. وقد عارضت نقابة المؤلّفين ذلك، بحجّة حقّ الجمهور في المعرفة. ويمكننا من خلال ذلك استنتاج أنّ النّزاع مستمر.

في بيان يوم الثّلاثاء المنصرم، 7 مايو، صرّحت OpenAI بأنّه “لم يجرِ تطوير النّماذج الّتي تعمل على تشغيل ChatGPT وواجهة برمجة التّطبيقات خاصّتنا اليوم باستخدام هذه المجموعات من البيانات”. مضيفة بأنّ “مجموعات البيانات هذه، والتي أُنشئت من قبل موظّفين سابقين لم يعودوا يعملون في OpenAI، كانت قد اُستخدمت آخرة مرّة في عام 2021، وحُذفت بداعي عدم الاستخدام في عام 2022.”

 

شارك المحتوى |
close icon