Llama-4 Maverick يتراجع أداؤه بقوة خلف أشهر نماذج الذكاء الاصطناعي

عدسة مكبرة تفحص دماغاً رقمياً، مع كلمتي Meta و maverick، تمثل التقييم والتساؤلات حول أداء نموذج ميتا للذكاء الاصطناعي Llama-4.

كشفت نتائج حديثة عن تراجع أداء النموذج الأساسي "Maverick" التابع لشركة ميتا في اختبارات الذكاء الاصطناعي الشهيرة LM Arena، مقارنةً بمنافسين مثل "GPT-4o" و"Claude 3.5".

وسببت هذه النتائج جدلًا حول استخدام ميتا إصدارًا تجريبيًّا مُحسّنًا سابقًا سجّل أداءً مرتفعًا، ما دفع المنظّمين لتعديل سياسات الاختبار.

ثم قاموا بإعادة تقييم الإصدار الأساسي Maverick غير المعدل (Llama-4-Maverick-17B-128E-Instruct).

ويعتبر Maverick واحدًا من أربعة نماذج ضمن الجيل الأحدث من الذكاء الاصطناعي "Llama-4" من شركة Meta.

وأظهر الإصدار الأساسي فجوةً واضحةً بنسبة 15-25% في المهام المعقدة كالاستدلال والتفكير النقدي، وفقًا لبيانات نشرتها منصة LM Arena يوم 12 أبريل 2025.

ليس هذا وحسب، بل جاء في مركز متأخر جداً خلف نماذج تم إطلاقها منذ أشهر مثل DeepSeek v2.5 وGemini 1.5 Pro.

The release version of Llama 4 has been added to LMArena after it was found out they cheated, but you probably didn't see it because you have to scroll down to 32nd place which is where is ranks pic.twitter.com/A0Bxkdx4LX
— ρ:ɡeσn (@pigeon__s) April 11, 2025

رغم ذلك، دافعت ميتا عن استراتيجيتها المتمثلة في توفير نموذج مفتوح المصدر قابل للتخصيص، بدلًا من التركيز على التفوق في الاختبارات المعيارية.

وأشار محللون إلى أن الاختبارات لا تعكس بالضرورة الأداء الواقعي للنماذج، خاصةً مع إمكانية تحسينها لتحقيق نتائج عالية في ظروف محددة.

ومن جهتها، أوضحت ميتا أن الإصدار التجريبي السابق خضع لتحسينات مكثفة تهدف لتعزيز الحوار، لكنها قد لا تناسب جميع الاستخدامات العملية.

يعكس هذا الجدل تحديًا أوسع في صناعة الذكاء الاصطناعي: التوازن بين الشفافية والتنافسية.

فبينما تركّز شركات مثل "OpenAI" على نماذج مغلقة عالية الكفاءة، تتبنى ميتا نهجًا مختلفًا عبر تمكين المطورين من تعديل النماذج وفق احتياجاتهم، حتى لو جاء الأداء الأولي متواضعًا.

ومن المتوقع أن تستمر ميتا في تطوير "مافريك"، مع تركيزٍ على دمج ملاحظات المطورين لتحسين القدرات الأساسية خلال الأشهر المقبلة.

تجدر الإشارة إلى أن LM Arena هي منصة رائدة لتقييم نماذج المحادثة، لكن النقاش حول دقة نتائجها يتصاعد مع تزايد اعتماد الشركات على الاختبارات المعيارية في التسويق.

ويبقى الأفضل للمطورين اختيار النماذج بناءً على تطبيقاتهم العملية، وليس النتائج النظرية فقط.