بينما كانت صناعة التكنولوجيا مهووسة بالذكاء الاصطناعي التوليدي، تراجعت شركة عملاقة واحدة: شركة أبل. لم تقدم الشركة بعد الكثير من الرموز التعبيرية التي تم إنشاؤها بواسطة الذكاء الاصطناعي، ووفقًا لـ أ نيويورك تايمز وفقًا لتقرير اليوم والتقارير السابقة من بلومبرج، فهي تجري محادثات أولية مع جوجل حول إضافة نموذج Gemini AI الخاص بشركة البحث إلى أجهزة iPhone.
ومع ذلك، تشير ورقة بحثية نشرها مهندسو شركة أبل بهدوء على الإنترنت يوم الجمعة الماضي، إلى أن الشركة تقوم باستثمارات جديدة كبيرة في الذكاء الاصطناعي والتي بدأت تؤتي ثمارها بالفعل. وهو يعرض تفاصيل تطوير نموذج ذكاء اصطناعي توليدي جديد يسمى MM1 قادر على العمل مع النصوص والصور. ويظهر الباحثون أنها تجيب على أسئلة حول الصور وتعرض نوع مهارات المعرفة العامة التي تظهرها روبوتات الدردشة مثل ChatGPT. لم يتم شرح اسم النموذج ولكن يمكن أن يرمز إلى MultiModal 1.
يبدو أن MM1 مشابه في التصميم والتطور لمجموعة متنوعة من نماذج الذكاء الاصطناعي الحديثة من عمالقة التكنولوجيا الآخرين، بما في ذلك Llama 2 مفتوح المصدر من Meta وGemini من Google. يُظهر العمل الذي قام به منافسو شركة أبل والأكاديميون أن النماذج من هذا النوع يمكن استخدامها لتشغيل روبوتات الدردشة القادرة أو بناء “وكلاء” يمكنهم حل المهام عن طريق كتابة التعليمات البرمجية واتخاذ إجراءات مثل استخدام واجهات الكمبيوتر أو مواقع الويب. وهذا يشير إلى أن MM1 قد يجد طريقه إلى منتجات Apple.
يقول رسلان سالاخوتدينوف، الأستاذ في جامعة كارنيجي ميلون الذي قاد أبحاث الذكاء الاصطناعي في شركة أبل منذ عدة سنوات: “حقيقة أنهم يفعلون ذلك، تظهر أن لديهم القدرة على فهم كيفية التدريب وكيفية بناء هذه النماذج”. “يتطلب قدرًا معينًا من الخبرة.”
MM1 هو نموذج لغة كبير متعدد الوسائط، أو MLLM، مما يعني أنه تم تدريبه على الصور بالإضافة إلى النص. يتيح ذلك للنموذج الاستجابة للمطالبات النصية وكذلك الإجابة على الأسئلة المعقدة حول صور معينة.
يوضح أحد الأمثلة في ورقة بحث Apple ما حدث عندما تم تزويد MM1 بصورة لطاولة مطعم مشمسة مع زجاجتين من البيرة وأيضًا صورة لقائمة الطعام. عندما سئل عن المبلغ الذي يتوقع شخص ما أن يدفعه مقابل “كل البيرة الموجودة على الطاولة”، يقرأ النموذج بشكل صحيح السعر الصحيح ويحسب التكلفة.
عندما تم إطلاق ChatGPT في نوفمبر 2022، كان بإمكانه استيعاب النص وإنشاءه فقط، ولكن في الآونة الأخيرة، عمل منشئه OpenAI وآخرون على توسيع تقنية نموذج اللغة الكبيرة الأساسية للعمل مع أنواع أخرى من البيانات. عندما أطلقت جوجل برنامج Gemini (النموذج الذي يدعم الآن إجابتها على ChatGPT) في ديسمبر الماضي، روجت الشركة لطبيعته المتعددة الوسائط باعتبارها بداية اتجاه جديد مهم في الذكاء الاصطناعي. وتقول ورقة بحثية لشركة أبل: “بعد ظهور أصحاب الامتيازات في مجال إدارة الأعمال، بدأت شركات الامتيازات والرواتب في الظهور باعتبارها الحدود التالية في نماذج الأساس”.
يعد MM1 نموذجًا صغيرًا نسبيًا، حيث يتم قياسه بعدد “المعلمات” أو المتغيرات الداخلية التي يتم تعديلها أثناء تدريب النموذج. تقول كيت ساينكو، الأستاذة في جامعة بوسطن والمتخصصة في رؤية الكمبيوتر والتعلم الآلي، إن هذا قد يسهل على مهندسي أبل تجربة أساليب التدريب المختلفة والتحسينات قبل التوسع عندما يصلون إلى شيء واعد.
يقول ساينكو إن ورقة MM1 توفر قدرًا مدهشًا من التفاصيل حول كيفية تدريب النموذج لنشره في إحدى الشركات. على سبيل المثال، يصف المهندسون الذين يقفون وراء MM1 الحيل لتحسين أداء النموذج بما في ذلك زيادة دقة الصور وخلط بيانات النص والصورة. وتشتهر شركة أبل بسريتها، لكنها أظهرت في السابق انفتاحا غير عادي بشأن أبحاث الذكاء الاصطناعي، حيث سعت إلى جذب المواهب اللازمة للمنافسة في هذه التكنولوجيا الحيوية.









