النسخة الأصلية ل هذه القصة ظهر في مجلة Quanta.

أصدرت شركة Deepseek الصينية AI chatbot في وقت سابق من هذا العام تسمى R1 ، والتي لفتت قدرًا كبيرًا من الاهتمام. ركزت معظمها على حقيقة أن شركة صغيرة وغير معروفة نسبيًا قالت إنها قامت ببناء دردشة تنافس على أداء أولئك من شركات الذكاء الاصطناعى الأكثر شهرة في العالم ، ولكن باستخدام جزء صغير من طاقة الكمبيوتر وتكلفة. نتيجة لذلك ، انخفضت أسهم العديد من شركات التكنولوجيا الغربية ؛ فقدت NVIDIA ، التي تبيع الرقائق التي تدير نماذج منظمة العفو الدولية ، قيمة الأسهم في يوم واحد أكثر من أي شركة في التاريخ.

بعض هذا الاهتمام ينطوي على عنصر من الاتهام. زعمت المصادر أن ديبسيك قد حصل ، دون إذن ، على معرفة من نموذج Openai الخاص O1 باستخدام تقنية تعرف باسم التقطير. وضع الكثير من التغطية الإخبارية هذا الاحتمال باعتباره صدمة لصناعة الذكاء الاصطناعى ، مما يعني أن ديبسيك قد اكتشف طريقة جديدة وأكثر كفاءة لبناء الذكاء الاصطناعي.

لكن التقطير ، الذي يطلق عليه أيضًا التقطير المعرفة ، هو أداة تستخدم على نطاق واسع في الذكاء الاصطناعي ، وموضوع أبحاث علوم الكمبيوتر التي تعود إلى عقد من الزمان وأداة تستخدمها شركات التكنولوجيا الكبيرة في نماذجها الخاصة. وقال إنريك بويكس-أديسيرا ، الباحث الذي يدرس التقطير في مدرسة وارتون بجامعة بنسلفانيا: “التقطير هو أحد أهم الأدوات التي لدى الشركات اليوم لجعل النماذج أكثر كفاءة”.

المعرفة المظلمة

بدأت فكرة التقطير مع ورقة 2015 من قبل ثلاثة باحثين في Google ، بما في ذلك Geoffrey Hinton ، ما يسمى العراب من الذكاء الاصطناعى و 2024 الحائز على جائزة نوبل. في ذلك الوقت ، غالبًا ما يدير الباحثون مجموعات من النماذج – “العديد من النماذج التي تم لصقها معًا” ، قال أوريول فينيالز ، وهو عالم رئيسي في Google Deepmind وأحد مؤلفي الورقة – لتحسين أدائهم. وقال فيليالز: “لكنها كانت مرهقة ومكلفة بشكل لا يصدق تشغيل جميع النماذج بالتوازي”. “لقد مفتون بفكرة تقطير ذلك على نموذج واحد.”

اعتقد الباحثون أنهم قد يحرزون تقدمًا من خلال معالجة نقطة ضعف ملحوظة في خوارزميات تعلم الآلة: كانت جميع الإجابات الخاطئة تعتبر جميعها سيئة على قدم المساواة ، بغض النظر عن مدى خطأها. في نموذج تصنيف الصور ، على سبيل المثال ، “تم إرباك الكلب والثعلب بنفس طريقة إرباك الكلب والبيتزا” ، قال Vinyals. يشتبه الباحثون في أن نماذج الفرقة تحتوي على معلومات حول الإجابات الخاطئة كانت أقل سوءًا من غيرها. ربما يمكن لنموذج “طالب” أصغر استخدام المعلومات من نموذج “المعلم” الكبير لفهم الفئات التي كان من المفترض أن تقوم بفرز الصور إليها بسرعة أكبر. أطلق هينتون على هذه “المعرفة المظلمة” ، ودعا إلى تشبيه مع المادة المظلمة الكونية.

بعد مناقشة هذا الاحتمال مع Hinton ، طور Vinyals طريقة للحصول على نموذج المعلم الكبير لتمرير المزيد من المعلومات حول فئات الصور إلى نموذج طالب أصغر. كان المفتاح هو التضمين في “الأهداف الناعمة” في نموذج المعلم-حيث يعين احتمالات لكل احتمال ، بدلاً من أن تكون هذه الإجابات. على سبيل المثال ، حسبت النماذج ، على سبيل المثال ، أن هناك فرصة بنسبة 30 في المائة لأن الصورة أظهرت كلبًا ، 20 في المائة أنها أظهرت قطة ، و 5 في المائة أنها أظهرت بقرة ، و 0.5 في المائة أنها أظهرت سيارة. باستخدام هذه الاحتمالات ، كشف نموذج المعلم بشكل فعال للطالب أن الكلاب تشبه تمامًا القطط ، لا تختلف تمامًا عن الأبقار ، وتميز تمامًا عن السيارات. وجد الباحثون أن هذه المعلومات ستساعد الطالب على تعلم كيفية تحديد صور الكلاب والقطط والأبقار والسيارات بشكل أكثر كفاءة. يمكن تقليل نموذج كبير ومعقد إلى طراز أصغر حجماً مع أي فقدان للدقة بالكاد.

النمو المتفجر

لم تكن الفكرة ضربة فورية. تم رفض الورقة من مؤتمر ، وتحولت Vinyals ، التي تم تثبيتها ، إلى مواضيع أخرى. لكن التقطير وصل في لحظة مهمة. في هذا الوقت ، كان المهندسون يكتشفون أنه كلما زادت بيانات التدريب التي قاموا بها في الشبكات العصبية ، زادت هذه الشبكات. سرعان ما انفجر حجم النماذج ، كما فعلت قدراتها ، لكن تكاليف تشغيلها ارتفعت في خطوة مع حجمها.

تحول العديد من الباحثين إلى التقطير كوسيلة لصنع نماذج أصغر. في عام 2018 ، على سبيل المثال ، كشف باحثو Google عن نموذج لغة قوي يسمى BERT ، والذي سرعان ما بدأت الشركة في استخدامها للمساعدة في تحليل مليارات من عمليات البحث على الويب. لكن بيرت كان كبيرًا ومكلفًا للتشغيل ، لذلك في العام المقبل ، قام المطورون الآخرون بتقطير نسخة أصغر تسمى بشكل معقول Distilbert ، والتي أصبحت تستخدم على نطاق واسع في الأعمال والبحث. أصبح التقطير تدريجياً في كل مكان ، ويتم تقديمه الآن كخدمة من قبل شركات مثل Google و Openai و Amazon. تم استشهاد ورقة التقطير الأصلية ، التي لا تزال نُشرت فقط على خادم arxiv.org preprint ، أكثر من 25000 مرة.

بالنظر إلى أن التقطير يتطلب الوصول إلى أقراص نموذج المعلم ، فليس من الممكن لطرف ثالث أن يتم تقطير البيانات بالتسلل من نموذج مصدر مغلق مثل Openai’s O1 ، كما كان يُعتقد أن Deepseek قد فعلت. ومع ذلك ، لا يزال من الممكن أن يتعلم نموذج الطالب قليلاً من نموذج للمعلم فقط من خلال حث المعلم على أسئلة معينة واستخدام إجابات لتدريب نماذجه الخاصة – وهو نهج سقراطي تقريبًا للتقطير.

وفي الوقت نفسه ، يواصل باحثون آخرون العثور على تطبيقات جديدة. في كانون الثاني (يناير) ، أظهر مختبر نوفاسكي في جامعة كاليفورنيا في بيركلي أن التقطير يعمل بشكل جيد لتدريب نماذج التفكير المذهل ، والتي تستخدم “التفكير” متعدد الخطوات للإجابة بشكل أفضل على الأسئلة المعقدة. يقول المختبر إن طراز Sky-T1 مفتوح المصدر بالكامل يكلف أقل من 450 دولارًا للتدريب ، وقد حقق نتائج مماثلة لنموذج مفتوح المصدر أكبر بكثير. وقال داشينج لي ، طالب الدكتوراه في بيركلي ومشارك في فريق نوفاسكي: “لقد فوجئنا حقًا بمدى عمل التقطير في هذا الإعداد”. “التقطير هو تقنية أساسية في الذكاء الاصطناعي.”


القصة الأصلية أعيد طبعه بإذن من مجلة Quanta ، منشور مستقل تحريري ل مؤسسة سيمونز تتمثل مهمتها في تعزيز الفهم العام للعلوم من خلال تغطية التطورات البحثية والاتجاهات في الرياضيات والعلوم المادية والحياة.

شاركها.
اترك تعليقاً

Exit mobile version