تطلق جامعة هارفارد مجموعة بيانات ضخمة مجانية للتدريب على الذكاء الاصطناعي بتمويل من OpenAI وMicrosoft

بالإضافة إلى مجموعة الكتب الثمينة، تعمل مبادرة البيانات المؤسسية أيضًا مع مكتبة بوسطن العامة لمسح ملايين المقالات من الصحف المختلفة الموجودة الآن في المجال العام، وتقول إنها مفتوحة لتشكيل تعاونات مماثلة في المستقبل. لم يتم تحديد الطريقة الدقيقة التي سيتم بها إصدار مجموعة بيانات الكتب. طلبت مبادرة البيانات المؤسسية من جوجل العمل معًا على التوزيع العام، وتعهدت الشركة بدعمها.

مهما تم إصدار مجموعة بيانات IDI، فإنها ستنضم إلى مجموعة من المشاريع المماثلة والشركات الناشئة والمبادرات التي تعد بمنح الشركات إمكانية الوصول إلى مواد تدريبية كبيرة وعالية الجودة في مجال الذكاء الاصطناعي دون التعرض لخطر التعرض لقضايا حقوق الطبع والنشر. ظهرت شركات مثل Calliope Networks وProRata لإصدار التراخيص وتصميم خطط التعويض المصممة للحصول على أموال للمبدعين وأصحاب الحقوق مقابل توفير بيانات التدريب على الذكاء الاصطناعي.

هناك أيضًا مشاريع جديدة أخرى ذات ملكية عامة. في الربيع الماضي، أطلقت شركة Pleias الفرنسية الناشئة في مجال الذكاء الاصطناعي مجموعة بيانات المجال العام الخاصة بها، Common Corpus، والتي تحتوي على ما يقدر بنحو 3 إلى 4 ملايين كتاب ومجموعة دورية، وفقًا لمنسق المشروع بيير كارل لانجليز. بدعم من وزارة الثقافة الفرنسية، تم تنزيل Common Corpus أكثر من 60 ألف مرة هذا الشهر وحده على منصة الذكاء الاصطناعي مفتوحة المصدر Hugging Face. في الأسبوع الماضي، أعلنت بلياس أنها ستطلق مجموعتها الأولى من النماذج اللغوية الكبيرة المدربة على مجموعة البيانات هذه، والتي قال لانجليز لمجلة WIRED إنها تشكل النماذج الأولى “التي تم تدريبها حصريًا على البيانات المفتوحة والمتوافقة مع قانون الذكاء الاصطناعي (الاتحاد الأوروبي)”.

الجهود جارية لإنشاء مجموعات بيانات سحرية مماثلة أيضًا. أصدرت شركة Spawning الناشئة العاملة في مجال الذكاء الاصطناعي هذا الصيف نسختها الخاصة التي تحمل اسم Source.Plus، والتي تحتوي على صور ذات ملكية عامة من Wikimedia Commons بالإضافة إلى مجموعة متنوعة من المتاحف والمحفوظات. لقد جعلت العديد من المؤسسات الثقافية المهمة منذ فترة طويلة أرشيفاتها الخاصة في متناول الجمهور كمشاريع مستقلة، مثل متحف متروبوليتان للفنون.

يقول إد نيوتن ريكس، المدير التنفيذي السابق في Stability AI والذي يدير الآن منظمة غير ربحية تصادق على أدوات الذكاء الاصطناعي المدربة أخلاقيا، إن ظهور مجموعات البيانات هذه يظهر أنه ليست هناك حاجة لسرقة مواد محمية بحقوق الطبع والنشر لبناء نماذج ذكاء اصطناعي عالية الأداء وعالية الجودة. أخبرت OpenAI سابقًا المشرعين في المملكة المتحدة أنه سيكون من “المستحيل” إنشاء منتجات مثل ChatGPT دون استخدام أعمال محمية بحقوق الطبع والنشر. يقول نيوتن-ريكس: “إن مجموعات البيانات العامة الكبيرة مثل هذه تؤدي إلى هدم “دفاع الضرورة” الذي تستخدمه بعض شركات الذكاء الاصطناعي لتبرير إلغاء الأعمال المحمية بحقوق الطبع والنشر لتدريب نماذجها”.

لكنه لا يزال لديه تحفظات حول ما إذا كانت مبادرة تطوير التطوير (IDI) والمشاريع المشابهة لها ستغير بالفعل الوضع الراهن للتدريب. “لن يكون لمجموعات البيانات هذه تأثير إيجابي إلا إذا تم استخدامها، ربما بالتزامن مع ترخيص بيانات أخرى، لتحل محل الأعمال المحمية بحقوق الطبع والنشر. ويقول: “إذا تمت إضافتها فقط إلى المزيج، وهو جزء من مجموعة البيانات التي تتضمن أيضًا الأعمال الحياتية غير المرخصة لمبدعي العالم، فسوف تعود بالنفع بشكل كبير على شركات الذكاء الاصطناعي”.