دليل مواقع وأدوات و تطبيقات الذكاء الاصطناعي

هل كذبت xAI على الجمهور بشأن ذكاء Grok 3؟

أثارت معايير تقييم نماذج الذكاء الاصطناعي جدلًا واسعًا بين الشركات المطورة. حيث تبادلت كل من xAI، الشركة التي أسسها إيلون ماسك، وOpenAI، اتهامات بشأن دقة النتائج المنشورة حول أداء النموذج الجديد Grok 3.

بدأت القصة عندما نشر أحد موظفي OpenAI منشورًا يتهم xAI بتقديم نتائج مضللة حول أداء Grok 3 مقارنة بمنافسه o3-mini-high من OpenAI.

ومن جانبه، دافع المؤسس المشارك لـ xAI، إيغور بابوشكين، عن نزاهة النتائج التي قدمتها شركته.

كيف بدأت الأزمة؟

نشرت xAI رسمًا بيانيًا على مدونتها الرسمية يظهر أداء Grok 3 في اختبار AIME 2025، وهو مجموعة من المسائل الرياضية المعقدة المستمدة من امتحان رياضيات دولي حديث.

ورغم التشكيك في مدى صلاحية AIME كمعيار لتقييم قدرات الذكاء الاصطناعي، فإنه يتم استخدامه على نطاق واسع لاختبار مدى كفاءة النماذج في حل المسائل الرياضية.

وأظهر الرسم البياني أن نسختين من Grok 3، وهما Grok 3 Reasoning Beta وGrok 3 mini Reasoning، تفوقتا على نموذج o3-mini-high في اختبار AIME 2025.

أداء Grok 3 في اختبار AIME 2025 أمام نماذج ذكاء اصطناعي أخرى مثل o3-mini-high
المصدر: مدونة xAI

غير أن موظفي OpenAI سارعوا إلى الإشارة إلى أن الرسم البياني لم يتضمن نتيجة o3-mini-high عند استخدام معيار "cons@64".

ما هو معيار "cons@64" ولماذا هو مهم؟

يشير "cons@64" إلى "consensus@64"، وهو أسلوب يسمح للنموذج بمحاولة الإجابة على السؤال 64 مرة، ثم يتم اعتماد الإجابة الأكثر تكرارًا كإجابة نهائية.

وهذا الأسلوب يعزز بشكل كبير من درجات النماذج في الاختبارات، مما يجعل استبعاده من المقارنة أمرًا مثيرًا للجدل، لأنه قد يوحي بأن Grok 3 يتفوق على o3-mini-high بينما الحقيقة قد تكون مختلفة.

وعند مقارنة أداء النماذج بدون هذا الأسلوب (عند "@1"، أي باستخدام المحاولة الأولى فقط للإجابة)، يتضح أن أداء Grok 3 Reasoning Beta وGrok 3 mini Reasoning أقل من o3-mini-high.

كما أن Grok 3 Reasoning Beta جاء خلف نموذج OpenAI الآخر o1 medium بفارق بسيط، رغم أن xAI تسوق Grok 3 باعتباره "أذكى ذكاء اصطناعي في العالم".

اتهامات متبادلة بين xAI وOpenAI

دافع بابوشكين عن شركته مشيرًا إلى أن OpenAI نفسها سبق أن استخدمت رسومًا بيانية قد تكون مضللة عند مقارنة إصدارات نماذجها الخاصة.

وفي المقابل، تدخل باحثون مستقلون لإعادة تقييم النتائج ونشروا رسومًا بيانية توضح أداء جميع النماذج باستخدام معيار "cons@64"، مما قدم صورة أكثر شمولًا ودقة.

لماذا لا تعكس التقييمات الصورة الكاملة؟

يشير الباحث ناثان لامبرت إلى أن هناك عاملًا أساسيًا آخر غائبًا عن معظم هذه النقاشات: التكلفة الحاسوبية والمالية لكل نموذج أثناء الاختبار.

فالنتائج وحدها لا تكشف عن الموارد الضخمة التي يحتاجها كل نموذج للوصول إلى أدائه الأمثل، وهو ما يجعل تقييم الذكاء الاصطناعي أكثر تعقيدًا من مجرد مقارنة الأرقام.

اقرأ أيضًا: مقارنة أداء Grok-3 أمام نماذج الذكاء الاصطناعي الشهيرة.

هل تؤثر هذه المعايير على مصداقية الشركات؟

يبرز هذا الجدل مشكلة أعمق في مجال الذكاء الاصطناعي: كيف تُعرض نتائج الاختبارات؟

فبينما تسعى الشركات لإبراز تفوق نماذجها، قد يتم انتقاء البيانات بعناية بطريقة تؤثر على كيفية فهم الجمهور للأداء الحقيقي.

ولذلك، يظل السؤال الأهم هو: إلى أي مدى يمكن الاعتماد على هذه التقييمات عند قياس ذكاء النماذج؟

Related Posts

قدرة مثيرة للجدل لـ Google Gemini في إزالة العلامات المائية من الصور
  • مارس 17, 2025

أثار نموذج Gemini 2.0 Flash التابع لشركة جوجل جدلاً واسعًا في الأوساط التقنية، بعد أن كشف عدد من مستخدمي مواقع التواصل…

اقرأ المزيد

حرب الذكاء الاصطناعي تشتعل: OpenAI تدعو إلى حظر نماذج DeepSeek
  • مارس 13, 2025

في تطور جديد ضمن التوتر المتزايد بين الشركات التقنية الغربية ونظيراتها الصينية، قدمت شركة OpenAI مقترحًا سياسيًا يحذر من مخاطر مختبر…

اقرأ المزيد

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

آخر المقالات

Roblox تُطلق Cube 3D: تصميم أشياء ثلاثية الأبعاد بالذكاء الاصطناعي

    Roblox تُطلق Cube 3D: تصميم أشياء ثلاثية الأبعاد بالذكاء الاصطناعي

    قدرة مثيرة للجدل لـ Google Gemini في إزالة العلامات المائية من الصور

      قدرة مثيرة للجدل لـ Google Gemini في إزالة العلامات المائية من الصور

      إنشاء وتعديل الصور مع مزايا Gemini Flash 2.0 الجديدة مجانًا: تجربة تتفوق على المنافسين

        إنشاء وتعديل الصور مع مزايا Gemini Flash 2.0 الجديدة مجانًا: تجربة تتفوق على المنافسين