Arab AI: الذكاء الاصطناعي بالعربية
AI Arab AI Logo
شعار شركة ميتا الرسمي مع كلمة Maverick على خلفية فضاء، في إشارة لنموذج الذكاء الاصطناعي Llama 4 الذي يواجه جدلاً حول اختبارات الأداء.

ميتا تواجه انتقادات حادة بسبب اختبارات أداء Llama 4، والشركة ترد

١٠ شوال ١٤٤٦ هـ / ٨ أبريل ٢٠٢٥
3 دقائق

تواجه شركة ميتا انتقادات حادة من قبل الباحثين في مجال الذكاء الاصطناعي بسبب تقديمها نسخة معدلة من نماذج جيلها الأحدث Llama 4 لاختبارات الأداء، مما أدى إلى تضليل المطورين بشأن قدراته الحقيقية.

وانتشرت الشائعات حول قيام الشركة بتدريب نسخة محسنة من نموذج Maverick -أحد إصدارات هذا الجيل- خصيصًا لتحسين أدائها في اختبارات الأداء المعيارية وإخفاء نقاط ضعفها.

Advertisement

أداء متفاوت بين النسخ

وفقًا لتقرير نشره موقع TechCrunch، تبين أن Maverick حصل على المرتبة الثانية في منصة LM Arena، التي تعتمد على مراجعات بشرية لتقييم أداء نماذج الذكاء الاصطناعي.

إلا أن النسخة التي تم اختبارها لم تكن نفسها التي أتاحتها ميتا للمطورين.

وأوضحت الشركة عبر مدونتها الرسمية أن النسخة المستخدمة في LM Arena كانت إصدارًا تجريبيًا مخصصًا للمحادثات، وهو ما يختلف عن النسخة العامة المتاحة للجمهور.

كما أكدت بيانات منشورة على الموقع الرسمي لنموذج Llama أن الاختبار استند إلى نسخة “محسنة للحوار”، وهو ما أثار مخاوف بشأن الشفافية والعدالة في تقييم أداء الذكاء الاصطناعي.

Advertisement

عادةً، تقدم الشركات نماذج غير معدلة إلى منصات الاختبار لضمان أن تعكس التقييمات الأداء الفعلي.

لكن قرار ميتا باستخدام نسخة مخصصة للاختبار ثم نشر إصدار مختلف قد يؤدي إلى سوء فهم المطورين لإمكانات النموذج الحقيقية، ويطرح تساؤلات حول مصداقية المقارنات بين النماذج المختلفة.

وأشار باحثون إلى تباينات واضحة في استجابات النسخة المتاحة للجمهور مقارنة بالإصدار المختبر في LM Arena.

حيث أظهرت النسخة المختبرة استخدامًا مفرطًا للرموز التعبيرية وإجابات مطولة بشكل غير معتاد.

Advertisement

يزيد هذا التباين من الشكوك حول مدى دقة نتائج الاختبارات في تمثيل الأداء الفعلي للنموذج عند استخدامه في تطبيقات حقيقية.

كما تم تداول شائعة نقلًا عن أحد الأشخاص الذي ادعى أنه موظف سابق في ميتا، استقال احتجاجًا على ممارسات الشركة في إجراء الاختبارات المعيارية

وزعم هذا الشخص أن ميتا تلاعبت بنتائج الاختبارات.

ميتا تنفي

من جانبه، نفى أحمد الدحلة، نائب رئيس قسم الذكاء الاصطناعي التوليدي في شركة ميتا، هذه الشائعات المتداولة.

وأكد الدحلة في منشور على منصة X أن “تدريب النماذج على مجموعات الاختبار هو أمر غير صحيح على الإطلاق”.

واعترف الدحلة بوجود تقارير عن تفاوت في جودة أداء نموذجي Maverick و Scout بين مزودي الخدمات السحابية المختلفين الذين يستضيفون هذه النماذج.

وأرجع هذا التفاوت إلى سرعة إطلاق النماذج فور جاهزيتها، متوقعًا أن يستغرق الأمر بضعة أيام حتى يتم ضبط جميع التطبيقات العامة بشكل كامل.

كما أكد التزام ميتا بمواصلة العمل على إصلاح الأخطاء ودعم الشركاء في هذا المجال.

في الختام، تسلط هذه الواقعة الضوء على ضرورة تحسين معايير الاختبار وضمان الشفافية في تقييم أداء النماذج، حتى يتمكن المطورون من اتخاذ قرارات سليمة عند اعتماد تقنيات الذكاء الاصطناعي الجديدة.

مقالات ذات صلة

التعليقات

لا توجد تعليقات بعد

كن أول من يعلق على هذا المحتوى.