Close Menu
الشرق تايمزالشرق تايمز
  • الرئيسية
  • اخر الاخبار
  • العالم
  • سياسة
  • اقتصاد
  • تكنولوجيا
  • ثقافة وفن
  • رياضة
  • سياحة وسفر
  • صحة وجمال
  • مقالات
  • منوعات
روابط هامة
  • الرئيسية
  • سياسة الخصوصية
  • من نحن
  • إعلن معنا
  • اتصل بنا
فيسبوك X (Twitter) الانستغرام يوتيوب
الشرق تايمزالشرق تايمز  اختر منطقتك
|
               
  حالة الطقس
الشرق تايمزالشرق تايمز
الرئيسية»تكنولوجيا
تكنولوجيا

إليك دليل على أنه يمكنك تدريب نموذج الذكاء الاصطناعي دون التهام محتوى محمي بحقوق الطبع والنشر

الشرق برسالشرق برسالأربعاء 20 مارس 4:39 ملا توجد تعليقات
فيسبوك تويتر بينتيريست واتساب تيلقرام البريد الإلكتروني

في عام 2023، أخبرت شركة OpenAI برلمان المملكة المتحدة أنه “من المستحيل” تدريب نماذج الذكاء الاصطناعي الرائدة دون استخدام مواد محمية بحقوق الطبع والنشر. إنه موقف شائع في عالم الذكاء الاصطناعي، حيث استخدمت شركة OpenAI وغيرها من الشركات الرائدة المواد التي تم الحصول عليها عبر الإنترنت لتدريب النماذج التي تعمل على تشغيل برامج الدردشة الآلية ومولدات الصور، مما أدى إلى موجة من الدعاوى القضائية التي تزعم انتهاك حقوق الطبع والنشر.

يقدم إعلانان يوم الأربعاء دليلاً على أنه يمكن في الواقع تدريب نماذج اللغات الكبيرة دون الاستخدام غير المصرح به للمواد المحمية بحقوق الطبع والنشر.

أصدرت مجموعة من الباحثين بدعم من الحكومة الفرنسية ما يُعتقد أنه أكبر مجموعة بيانات للتدريب على الذكاء الاصطناعي تتألف بالكامل من نص موجود في المجال العام. وأعلنت منظمة Fairly Trained غير الربحية أنها منحت أول شهادة لها لنموذج لغة كبير تم تصميمه دون انتهاك حقوق الطبع والنشر، مما يدل على أن التكنولوجيا مثل تلك التي تقف خلف ChatGPT يمكن بناؤها بطريقة مختلفة عن المعايير المثيرة للجدل في صناعة الذكاء الاصطناعي.

يقول إد نيوتن ريكس، الرئيس التنفيذي لشركة Fairly Trained: “لا يوجد سبب أساسي لعدم تمكن شخص ما من تدريب ماجستير إدارة الأعمال بشكل عادل”. أسس المنظمة غير الربحية في يناير 2024 بعد ترك منصبه التنفيذي في شركة Stability AI الناشئة لتوليد الصور لأنه اختلف مع سياستها المتمثلة في نسخ المحتوى دون إذن.

تقدم Fairly Trained شهادة للشركات الراغبة في إثبات قيامها بتدريب نماذج الذكاء الاصطناعي الخاصة بها على البيانات التي تمتلكها، أو المرخصة لها، أو الموجودة في المجال العام. عندما تم إطلاق المنظمة غير الربحية، أشار بعض النقاد إلى أنها لم تحدد بعد نموذجًا لغويًا كبيرًا يلبي هذه المتطلبات.

أعلنت شركة Fairly Trained اليوم أنها حصلت على أول نموذج لغوي كبير لها. يُطلق عليه اسم KL3M وتم تطويره من قبل شركة 273 Ventures الناشئة للاستشارات التقنية القانونية ومقرها شيكاغو، باستخدام مجموعة بيانات تدريبية منسقة من المستندات القانونية والمالية والتنظيمية.

يقول المؤسس المشارك للشركة جيليان بوماريتو إن قرار تدريب KL3M بهذه الطريقة نابع من عملاء الشركة “الذين يكرهون المخاطرة” مثل شركات المحاماة. وتقول: “إنهم قلقون بشأن المصدر، ويحتاجون إلى معرفة أن المخرجات لا تعتمد على بيانات ملوثة”. “نحن لا نعتمد على الاستخدام العادل.” كان العملاء مهتمين باستخدام الذكاء الاصطناعي التوليدي لمهام مثل تلخيص المستندات القانونية وصياغة العقود، لكنهم لم يرغبوا في الانجرار إلى دعاوى قضائية حول الملكية الفكرية مثل OpenAI وStability AI وغيرهما.

يقول بوماريتو إن 273 شركة Ventures لم تعمل على نموذج لغوي كبير من قبل، لكنها قررت تدريب أحد النماذج كتجربة. وتقول: “اختبارنا لمعرفة ما إذا كان ذلك ممكنًا”. أنشأت الشركة مجموعة بيانات التدريب الخاصة بها، Kelvin Legal DataPack، والتي تتضمن آلاف المستندات القانونية التي تمت مراجعتها للامتثال لقانون حقوق الطبع والنشر.

على الرغم من أن مجموعة البيانات صغيرة (حوالي 350 مليار رمز، أو وحدات بيانات) مقارنة بتلك التي جمعتها OpenAI وغيرها من الشركات التي اخترقت الإنترنت بشكل جماعي، تقول بوماريتو إن أداء نموذج KL3M كان أفضل بكثير من المتوقع، وهو أمر تعزوه إلى مدى دقة البيانات. وقد تم فحص البيانات مسبقا. وتقول: “إن الحصول على بيانات نظيفة وعالية الجودة قد يعني أنك لست مضطرًا إلى جعل النموذج كبيرًا جدًا”. يمكن أن يساعد تنظيم مجموعة البيانات في إنشاء نموذج ذكاء اصطناعي نهائي مخصص للمهمة المصممة من أجلها. تقدم 273 Ventures الآن أماكن في قائمة الانتظار للعملاء الذين يرغبون في شراء حق الوصول إلى هذه البيانات.

صفحة نظيفة

قد تحصل الشركات التي تتطلع إلى محاكاة KL3M على مزيد من المساعدة في المستقبل في شكل مجموعات بيانات متاحة مجانًا وخالية من الانتهاك. أصدر الباحثون يوم الأربعاء ما يزعمون أنه أكبر مجموعة بيانات متاحة للذكاء الاصطناعي لنماذج اللغة المكونة بالكامل من محتوى المجال العام. Common Corpus، كما يطلق عليه، عبارة عن مجموعة من النصوص بنفس حجم البيانات المستخدمة لتدريب نموذج إنشاء النص GPT-3 الخاص بـ OpenAI وتم نشرها على منصة الذكاء الاصطناعي مفتوحة المصدر Hugging Face.

تم بناء مجموعة البيانات من مصادر مثل صحف الملكية العامة التي تم رقمنتها بواسطة مكتبة الكونجرس الأمريكية والمكتبة الوطنية الفرنسية. ويصفها بيير كارل لانجليز، منسق مشروع Common Corpus، بأنها “مجموعة كبيرة بما يكفي لتدريب ماجستير في القانون على أحدث طراز”. في لغة الذكاء الاصطناعي الكبير، تحتوي مجموعة البيانات على 500 مليون رمز، ويُعتقد على نطاق واسع أن النموذج الأكثر قدرة في OpenAI قد تم تدريبه على عدة تريليونات.

شاركها. فيسبوك تويتر بينتيريست لينكدإن Tumblr واتساب تيلقرام البريد الإلكتروني

مقالات ذات صلة

مايكل فان جيرفن يظهر ارتباكًا حول (مزرعة الحيوانات) لـ جورج أورويل.

اشتراك IPTV كأس العالم الرسمي – أفضل اشتراك IPTV بدون تقطيع من الكأس تي في

غرسة دماغية للاكتئاب ستُختبر على البشر قريبًا.

شركة CNTXT AI تطلق نموذج “مُنصِت” الإماراتي لتحويل النص إلى كلام، أدق نموذج صوتي إماراتي أصيل، واضعةً معياراً جديداً لدقة وتطوّر تقنيات النطق باللغة العربية

شركة CNTXT AI تطلق نموذج “مُنصِت” الإماراتي لتحويل النص إلى كلام، أدق نموذج صوتي إماراتي أصيل، واضعةً معياراً جديداً لدقة وتطوّر تقنيات النطق باللغة العربية

موظفو بالانتير يبدأون التساؤل عما إذا كانوا الطرف الخصم.

أفضل أجهزة الكمبيوتر المحمولة للألعاب (2026): رايزر، أسوس، ديل، وغيرها.

كيفية مشاهدة ذروة شهاب الليريد (Lyrid Meteor Shower) لعام 2026.

هيونداي أيونيك 3 لعام 2026: السعر والمواصفات والتوفر.

اترك تعليقاً
اترك تعليقاً إلغاء الرد

Demo

اخر الأخبار

سباق الدوري الإنجليزي الممتاز: نقاط التحول الحاسمة بين آرسنال ومانشستر سيتي.

رئيس الاتحاد الأفريقي لكرة القدم يحترم قرار (CAS) بشأن خلاف نهائي كأس الأمم الأفريقية.

ويست هام أم توتنهام؟ خطر الهبوط يهدد منافسي لندن مع ابتعاد ليدز ونوتنغهام فورست.

تشيلسي: بول ميرسون لا يفهم مشروع النادي، ويتزايد الضغط على ليام روزينيور وتتلاشى آمال (دوري الأبطال).

حل مشاكل التسويق الإلكتروني نهائياً مع نظام باقات وان بليون لإدارة السوشيال ميديا

رائج هذا الأسبوع

مايكل فان جيرفن يظهر ارتباكًا حول (مزرعة الحيوانات) لـ جورج أورويل.

تكنولوجيا الخميس 30 أبريل 6:48 م

الإقامة المحلية تشهد إقبالاً متزايداً من السياح الفرنسيين هذا الصيف بسبب الأزمات الجيوسياسية والتضخم.

سياحة وسفر الخميس 30 أبريل 6:26 م

اشتراك IPTV كأس العالم الرسمي – أفضل اشتراك IPTV بدون تقطيع من الكأس تي في

اخبار التقنية الخميس 30 أبريل 3:06 م

تسويات جماعية قضائية مستمرة في كاليفورنيا تتضمن دفعات مالية لـ 11 طرفًا.

منوعات الثلاثاء 28 أبريل 6:32 م

آنه هاثاواي ترتدي بنطلون رياضي بطريقة غير تقليدية وأنيقة.

ثقافة وفن الثلاثاء 28 أبريل 6:04 م
الشرق تايمز
فيسبوك X (Twitter) الانستغرام بينتيريست
  • الرئيسية
  • سياسة الخصوصية
  • من نحن
  • إعلن معنا
  • اتصل بنا
2026 © الشرق برس. جميع حقوق النشر محفوظة.

اكتب كلمة البحث ثم اضغط على زر Enter

تسجيل الدخول أو التسجيل

مرحبًا بعودتك!

Login to your account below.

نسيت كلمة المرور؟