دليل مواقع وأدوات و تطبيقات الذكاء الاصطناعي

هل كذبت xAI على الجمهور بشأن ذكاء Grok 3؟

أثارت معايير تقييم نماذج الذكاء الاصطناعي جدلًا واسعًا بين الشركات المطورة. حيث تبادلت كل من xAI، الشركة التي أسسها إيلون ماسك، وOpenAI، اتهامات بشأن دقة النتائج المنشورة حول أداء النموذج الجديد Grok 3.

بدأت القصة عندما نشر أحد موظفي OpenAI منشورًا يتهم xAI بتقديم نتائج مضللة حول أداء Grok 3 مقارنة بمنافسه o3-mini-high من OpenAI.

ومن جانبه، دافع المؤسس المشارك لـ xAI، إيغور بابوشكين، عن نزاهة النتائج التي قدمتها شركته.

كيف بدأت الأزمة؟

نشرت xAI رسمًا بيانيًا على مدونتها الرسمية يظهر أداء Grok 3 في اختبار AIME 2025، وهو مجموعة من المسائل الرياضية المعقدة المستمدة من امتحان رياضيات دولي حديث.

ورغم التشكيك في مدى صلاحية AIME كمعيار لتقييم قدرات الذكاء الاصطناعي، فإنه يتم استخدامه على نطاق واسع لاختبار مدى كفاءة النماذج في حل المسائل الرياضية.

وأظهر الرسم البياني أن نسختين من Grok 3، وهما Grok 3 Reasoning Beta وGrok 3 mini Reasoning، تفوقتا على نموذج o3-mini-high في اختبار AIME 2025.

أداء Grok 3 في اختبار AIME 2025 أمام نماذج ذكاء اصطناعي أخرى مثل o3-mini-high
المصدر: مدونة xAI

غير أن موظفي OpenAI سارعوا إلى الإشارة إلى أن الرسم البياني لم يتضمن نتيجة o3-mini-high عند استخدام معيار "cons@64".

ما هو معيار "cons@64" ولماذا هو مهم؟

يشير "cons@64" إلى "consensus@64"، وهو أسلوب يسمح للنموذج بمحاولة الإجابة على السؤال 64 مرة، ثم يتم اعتماد الإجابة الأكثر تكرارًا كإجابة نهائية.

وهذا الأسلوب يعزز بشكل كبير من درجات النماذج في الاختبارات، مما يجعل استبعاده من المقارنة أمرًا مثيرًا للجدل، لأنه قد يوحي بأن Grok 3 يتفوق على o3-mini-high بينما الحقيقة قد تكون مختلفة.

وعند مقارنة أداء النماذج بدون هذا الأسلوب (عند "@1"، أي باستخدام المحاولة الأولى فقط للإجابة)، يتضح أن أداء Grok 3 Reasoning Beta وGrok 3 mini Reasoning أقل من o3-mini-high.

كما أن Grok 3 Reasoning Beta جاء خلف نموذج OpenAI الآخر o1 medium بفارق بسيط، رغم أن xAI تسوق Grok 3 باعتباره "أذكى ذكاء اصطناعي في العالم".

اتهامات متبادلة بين xAI وOpenAI

دافع بابوشكين عن شركته مشيرًا إلى أن OpenAI نفسها سبق أن استخدمت رسومًا بيانية قد تكون مضللة عند مقارنة إصدارات نماذجها الخاصة.

وفي المقابل، تدخل باحثون مستقلون لإعادة تقييم النتائج ونشروا رسومًا بيانية توضح أداء جميع النماذج باستخدام معيار "cons@64"، مما قدم صورة أكثر شمولًا ودقة.

لماذا لا تعكس التقييمات الصورة الكاملة؟

يشير الباحث ناثان لامبرت إلى أن هناك عاملًا أساسيًا آخر غائبًا عن معظم هذه النقاشات: التكلفة الحاسوبية والمالية لكل نموذج أثناء الاختبار.

فالنتائج وحدها لا تكشف عن الموارد الضخمة التي يحتاجها كل نموذج للوصول إلى أدائه الأمثل، وهو ما يجعل تقييم الذكاء الاصطناعي أكثر تعقيدًا من مجرد مقارنة الأرقام.

اقرأ أيضًا: مقارنة أداء Grok-3 أمام نماذج الذكاء الاصطناعي الشهيرة.

هل تؤثر هذه المعايير على مصداقية الشركات؟

يبرز هذا الجدل مشكلة أعمق في مجال الذكاء الاصطناعي: كيف تُعرض نتائج الاختبارات؟

فبينما تسعى الشركات لإبراز تفوق نماذجها، قد يتم انتقاء البيانات بعناية بطريقة تؤثر على كيفية فهم الجمهور للأداء الحقيقي.

ولذلك، يظل السؤال الأهم هو: إلى أي مدى يمكن الاعتماد على هذه التقييمات عند قياس ذكاء النماذج؟

Related Posts

رئيس Nvidia: أخطأتم بشأن تأثير DeepSeek
  • فبراير 22, 2025

أكد جنسن هوانج، المؤسس والرئيس التنفيذي لشركة Nvidia، أن السوق أخطأ في تقدير تأثير التطورات التكنولوجية التي أعلنت عنها DeepSeek، مشيرًا…

اقرأ المزيد

Sakana AI تتراجع عن ادعاء تسريع تدريب نماذج الذكاء الاصطناعي
  • فبراير 21, 2025

في خطوة أثارت الكثير من الجدل، تراجعت شركة Sakana AI المدعومة من Nvidia عن ادعاءاتها السابقة بشأن نظامها الجديد، “AI CUDA…

اقرأ المزيد

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

آخر المقالات

هل كذبت xAI على الجمهور بشأن ذكاء Grok 3؟

    هل كذبت xAI على الجمهور بشأن ذكاء Grok 3؟

    Grok-3 xAI: التقييم النهائي – هل يتفوق على ChatGPTوDeepSeek وGemini؟

      Grok-3 xAI: التقييم النهائي – هل يتفوق على ChatGPTوDeepSeek وGemini؟

      Focal Ml: حول النص إلى قصص وفيديوهات وأفلام سينمائية بالعربية بال AI

        Focal Ml: حول النص إلى قصص وفيديوهات وأفلام سينمائية بالعربية بال AI