Latam-GPT جديد نموذج لغة كبير يتم تطويره في أمريكا اللاتينية. يهدف المشروع ، بقيادة المركز الوطني التشيلي غير الربحي للذكاء الاصطناعي (CENIA) ، إلى مساعدة المنطقة على تحقيق الاستقلال التكنولوجي من خلال تطوير نموذج منظمة العفو الدولية مفتوحة المصدر المدرب على لغات وسياقات أمريكا اللاتينية.

يقول ألفارو سوتو ، مدير سيليا ، في مقابلة مع Wired en Español: “لا يمكن إنجاز هذا العمل من قبل مجموعة واحدة أو بلد واحد فقط في أمريكا اللاتينية: إنه تحد يتطلب مشاركة الجميع”. “Latam-GPT هو مشروع يسعى إلى إنشاء نموذج منظمة العفو الدولية المفتوحة والمجانية ، وقبل كل شيء. لقد عملنا لمدة عامين مع عملية من القاعدة إلى القمة ، مع الجمع بين المواطنين من مختلف البلدان الذين يرغبون في التعاون. وفي الآونة الأخيرة ، شهدت أيضًا بعض المبادرات من أعلى إلى أسفل ، مع الحكومات المهتمة والبدء في المشاركة في المشروع.”

يبرز المشروع لروحه التعاونية. “لا نتطلع إلى التنافس مع Openai أو Deepseek أو Google. نريد نموذجًا خاصًا بأمريكا اللاتينية ومنطقة البحر الكاريبي ، على دراية بالمتطلبات والتحديات الثقافية التي يستلزمها ذلك ، مثل فهم لهجات مختلفة ، تاريخ المنطقة ، والجوانب الثقافية الفريدة” ، يوضح سوتو.

بفضل 33 شراكة استراتيجية مع مؤسسات في أمريكا اللاتينية ومنطقة البحر الكاريبي ، جمع المشروع مجموعة من البيانات التي تتجاوز ثمانية تيرابايت من النص ، أي ما يعادل ملايين الكتب. مكنت قاعدة المعلومات هذه من تطوير نموذج لغة مع 50 مليار معلمة ، وهو مقياس يجعلها مماثلة لـ GPT-3.5 وتمنحها قدرة متوسطة إلى عالية على أداء المهام المعقدة مثل التفكير والترجمة والجمعيات.

يتم تدريب Latam-GPT على قاعدة بيانات إقليمية تجمع المعلومات من 20 دولة في أمريكا اللاتينية وإسبانيا ، مع ما مجموعه 255500 وثيقة. يُظهر توزيع البيانات تركيزًا كبيرًا في أكبر البلدان في المنطقة ، مع البرازيل الرائد مع 685000 وثيقة ، تليها المكسيك مع 385،000 ، إسبانيا مع 325،000 ، كولومبيا مع 220،000 ، والأرجنتين مع 210،000 وثيقة. تعكس الأرقام حجم هذه الأسواق ، وتطورها الرقمي ، وتوافر المحتوى المنظم.

“في البداية ، سنطلق نموذجًا لغة. نتوقع أن يكون أدائها في المهام العامة قريبًا من نماذج تجارية كبيرة ، ولكن مع الأداء المتفوق في الموضوعات الخاصة بأمريكا اللاتينية. إن الفكرة هي أنه إذا سألنا عن الموضوعات ذات الصلة بمنطقتنا ، فإن معرفتها ستكون أعمق بكثير”.

النموذج الأول هو نقطة الانطلاق لتطوير عائلة من التقنيات الأكثر تقدماً في المستقبل ، بما في ذلك تلك التي تحتوي على الصور والفيديو ، ولتوسع نماذج أكبر. “نظرًا لأن هذا مشروع مفتوح ، فإننا نريد أن تكون مؤسسات أخرى قادرة على استخدامه. يمكن لمجموعة في كولومبيا تكييفها مع نظام التعليم المدرسي أو يمكن أن تتكيف معها في قطاع الصحة.

شاركها.
اترك تعليقاً

Exit mobile version