Close Menu
الشرق تايمزالشرق تايمز
  • الرئيسية
  • اخر الاخبار
  • العالم
  • سياسة
  • اقتصاد
  • تكنولوجيا
  • ثقافة وفن
  • رياضة
  • سياحة وسفر
  • صحة وجمال
  • مقالات
  • منوعات
روابط هامة
  • الرئيسية
  • سياسة الخصوصية
  • من نحن
  • إعلن معنا
  • اتصل بنا
فيسبوك X (Twitter) الانستغرام يوتيوب
الشرق تايمزالشرق تايمز  اختر منطقتك
|
               
  حالة الطقس
الشرق تايمزالشرق تايمز
الرئيسية»تكنولوجيا
تكنولوجيا

مهندسو Apple يوضحون كيف يمكن أن يكون “الاستدلال” الهش للذكاء الاصطناعي

الشرق برسالشرق برسالأربعاء 16 أكتوبر 12:13 صلا توجد تعليقات
فيسبوك تويتر بينتيريست واتساب تيلقرام البريد الإلكتروني

منذ فترة، كانت شركات مثل OpenAI وGoogle تروج لقدرات “الاستدلال” المتقدمة باعتبارها الخطوة الكبيرة التالية في أحدث نماذج الذكاء الاصطناعي الخاصة بها. الآن، على الرغم من ذلك، أظهرت دراسة جديدة أجراها ستة مهندسين من شركة Apple أن “الاستدلال الرياضي” الذي تعرضه نماذج اللغة الكبيرة المتقدمة يمكن أن يكون هشًا للغاية وغير موثوق به في مواجهة التغييرات التي تبدو تافهة في المشكلات المعيارية الشائعة.

تساعد الهشاشة التي تم إبرازها في هذه النتائج الجديدة في دعم الأبحاث السابقة التي تشير إلى أن استخدام ماجستير إدارة الأعمال لمطابقة الأنماط الاحتمالية يفتقد الفهم الرسمي للمفاهيم الأساسية اللازمة لقدرات التفكير الرياضي الموثوقة حقًا. “إن حاملي الماجستير الحاليين غير قادرين على التفكير المنطقي الحقيقي”، يفترض الباحثون بناءً على هذه النتائج. “بدلاً من ذلك، يحاولون تكرار خطوات التفكير التي تمت ملاحظتها في بيانات التدريب الخاصة بهم.”

امزجها

في “GSM-Symbolic: فهم حدود الاستدلال الرياضي في نماذج اللغات الكبيرة” – المتوفر حاليًا كورقة مطبوعة مسبقًا – بدأ باحثو Apple الستة بمجموعة GSM8K الموحدة التي تضم أكثر من 8000 مشكلة كلامية رياضية على مستوى الصف الدراسي، والتي تُستخدم غالبًا كمعيار لقدرات التفكير المعقدة لـ LLMs الحديثة. ثم يتبعون النهج الجديد المتمثل في تعديل جزء من مجموعة الاختبار هذه لاستبدال أسماء وأرقام معينة ديناميكيًا بقيم جديدة – لذا فإن السؤال حول حصول صوفي على 31 قطعة بناء لابن أخيها في GSM8K يمكن أن يصبح سؤالاً حول حصول بيل على 19 قطعة بناء لـ شقيقه في تقييم GSM-Symbolic الجديد.

يساعد هذا النهج على تجنب أي “تلوث بيانات” محتمل يمكن أن ينتج عن أسئلة GSM8K الثابتة التي يتم إدخالها مباشرة في بيانات تدريب نموذج الذكاء الاصطناعي. وفي الوقت نفسه، لا تغير هذه التغييرات العرضية من الصعوبة الفعلية للاستدلال الرياضي المتأصل على الإطلاق، مما يعني أن النماذج يجب أن تؤدي نظريًا نفس الأداء عند اختبارها على GSM-Symbolic مثل GSM8K.

بدلاً من ذلك، عندما اختبر الباحثون أكثر من 20 ماجستيرًا في إدارة الأعمال (LLM) على نظام GSM-Symbolic، وجدوا أن متوسط ​​الدقة انخفض في جميع المجالات مقارنة بـ GSM8K، مع انخفاض الأداء بنسبة تتراوح بين 0.3 بالمائة و9.2 بالمائة، اعتمادًا على النموذج. وأظهرت النتائج أيضًا تباينًا كبيرًا عبر 50 تشغيلًا منفصلاً لـ GSM-Symbolic بأسماء وقيم مختلفة. وكانت الفجوات التي تصل إلى 15% من الدقة بين أفضل وأسوأ عمليات التشغيل شائعة داخل النموذج الواحد، ولسبب ما، أدى تغيير الأرقام إلى دقة أسوأ من تغيير الأسماء.

هذا النوع من التباين – سواء ضمن عمليات GSM-Symbolic المختلفة أو مقارنة بنتائج GSM8K – يعد أكثر من مفاجئ بعض الشيء لأنه، كما يشير الباحثون، “خطوات الاستدلال الشاملة اللازمة لحل السؤال تظل كما هي.” حقيقة أن مثل هذه التغييرات الصغيرة تؤدي إلى مثل هذه النتائج المتغيرة تشير إلى الباحثين أن هذه النماذج لا تقوم بأي تفكير “رسمي” ولكنها بدلاً من ذلك “تحاول أداء نوع من مطابقة أنماط التوزيع، ومواءمة الأسئلة المعطاة والنتائج” خطوات الحل مع الخطوات المماثلة التي تظهر في بيانات التدريب.

لا تشتت انتباهك

ومع ذلك، كان التباين الإجمالي الموضح في اختبارات GSM-Symbolic صغيرًا نسبيًا في كثير من الأحيان في المخطط الكبير للأشياء. على سبيل المثال، انخفضت دقة ChatGPT-4o من OpenAI من 95.2 بالمائة على GSM8K إلى 94.9 بالمائة على GSM-Symbolic، والتي لا تزال مثيرة للإعجاب. يعد هذا معدل نجاح مرتفع جدًا باستخدام أي من المعيارين، بغض النظر عما إذا كان النموذج نفسه يستخدم المنطق “الرسمي” خلف الكواليس أم لا (على الرغم من انخفاض الدقة الإجمالية للعديد من النماذج بشكل كبير عندما أضاف الباحثون خطوة منطقية واحدة أو خطوتين إضافيتين فقط إلى المشكلات ).

ومع ذلك، كان أداء امتحانات LLM التي تم اختبارها أسوأ بكثير، عندما قام باحثو Apple بتعديل معيار GSM-Symbolic من خلال إضافة “بيانات ذات صلة على ما يبدو ولكنها في النهاية غير مهمة” إلى الأسئلة. بالنسبة لمجموعة معايير “GSM-NoOp” (اختصار لـ “لا توجد عملية”)، قد يتم تعديل سؤال حول عدد الكيوي الذي يختاره شخص ما خلال عدة أيام ليشمل التفاصيل العرضية التي تقول “خمسة منهم (الكيوي) كانوا أصغر قليلاً من المتوسط.”

أدت إضافة هذه التضليلات الحمراء إلى ما وصفه الباحثون بـ “انخفاض الأداء الكارثي” في الدقة مقارنة بـ GSM8K، حيث تراوحت من 17.5 بالمائة إلى 65.7 بالمائة، اعتمادًا على النموذج الذي تم اختباره. وكتب الباحثون أن هذه الانخفاضات الهائلة في الدقة تسلط الضوء على الحدود الكامنة في استخدام “مطابقة الأنماط” البسيطة “لتحويل البيانات إلى عمليات دون فهم معناها حقًا”.

شاركها. فيسبوك تويتر بينتيريست لينكدإن Tumblr واتساب تيلقرام البريد الإلكتروني

مقالات ذات صلة

أفضل أجهزة الكمبيوتر المحمولة للألعاب (2026): رايزر، أسوس، ديل، وغيرها.

كيفية مشاهدة ذروة شهاب الليريد (Lyrid Meteor Shower) لعام 2026.

هيونداي أيونيك 3 لعام 2026: السعر والمواصفات والتوفر.

ازدهار الروايات الرقمية يعيد تصور التاريخ الصيني.

أفضل كاشف دخان ذكي (ولماذا لا تزال تحتاج إلى كاشف تقليدي).

أنصار ترامب المتشددون يتساءلون عما إذا كان هو (المسيح الدجال).

الحاجة إلى زيادة القلق بشأن الهربس النطاقي (Shingles).

وكالات الذكاء الاصطناعي تستهدف تطبيقات المواعدة.

“الجرأة” هي الإطاحة بالـ(Broligarchy) المنتظرة.

اترك تعليقاً
اترك تعليقاً إلغاء الرد

Demo

اخر الأخبار

أفضل أجهزة الكمبيوتر المحمولة للألعاب (2026): رايزر، أسوس، ديل، وغيرها.

مزارع يخطط لتربية أبقار قبيحة لمنع مضايقات المؤثرين لها.

مايكل فان جيرفن يدافع عن لقبه ويحقق إنجازًا تاريخيًا في (The Masters) بفوزه في أوغوستا.

محكمة الاتحاد الأوروبي تحكم بأن قانون أوربان المناهض لمجتمع الميم (LGBTQ+) ينتهك القيم الأساسية.

كيفية مشاهدة ذروة شهاب الليريد (Lyrid Meteor Shower) لعام 2026.

رائج هذا الأسبوع

بتنهي فرانكل ترتدي فستانًا ورديًا مثاليًا للربيع، ويمكن الحصول على إطلالة مماثلة بـ 50 دولارًا.

ثقافة وفن الثلاثاء 21 أبريل 8:32 ص

كريس بيلام-سميث يوقع مع زوفا بوكسينغ ويخوض نزالاً على سكاي سبورتس.

رياضة الثلاثاء 21 أبريل 8:04 ص

أمين عام (الاتحاد الأفريقي لكرة القدم) يستقيل على خلفية جدل (نهائي كأس الأمم الأفريقية).

اخر الاخبار الثلاثاء 21 أبريل 7:34 ص

أرسنال: أسباب تراجع مستوى الفريق وكيف يوقف مايكل أرتيتا “انهيار” (Bottling) في الدوري الإنجليزي الممتاز؟

رياضة الإثنين 20 أبريل 5:50 م

هيونداي أيونيك 3 لعام 2026: السعر والمواصفات والتوفر.

تكنولوجيا الإثنين 20 أبريل 4:02 م
الشرق تايمز
فيسبوك X (Twitter) الانستغرام بينتيريست
  • الرئيسية
  • سياسة الخصوصية
  • من نحن
  • إعلن معنا
  • اتصل بنا
2026 © الشرق برس. جميع حقوق النشر محفوظة.

اكتب كلمة البحث ثم اضغط على زر Enter

تسجيل الدخول أو التسجيل

مرحبًا بعودتك!

Login to your account below.

نسيت كلمة المرور؟