
تواجه شركة ميتا انتقادات حادة من قبل الباحثين في مجال الذكاء الاصطناعي بسبب تقديمها نسخة معدلة من نماذج جيلها الأحدث Llama 4 لاختبارات الأداء، مما أدى إلى تضليل المطورين بشأن قدراته الحقيقية.
وانتشرت الشائعات حول قيام الشركة بتدريب نسخة محسنة من نموذج Maverick -أحد إصدارات هذا الجيل- خصيصًا لتحسين أدائها في اختبارات الأداء المعيارية وإخفاء نقاط ضعفها.
أداء متفاوت بين النسخ
وفقًا لتقرير نشره موقع TechCrunch، تبين أن Maverick حصل على المرتبة الثانية في منصة LM Arena، التي تعتمد على مراجعات بشرية لتقييم أداء نماذج الذكاء الاصطناعي.
إلا أن النسخة التي تم اختبارها لم تكن نفسها التي أتاحتها ميتا للمطورين.
وأوضحت الشركة عبر مدونتها الرسمية أن النسخة المستخدمة في LM Arena كانت إصدارًا تجريبيًا مخصصًا للمحادثات، وهو ما يختلف عن النسخة العامة المتاحة للجمهور.
كما أكدت بيانات منشورة على الموقع الرسمي لنموذج Llama أن الاختبار استند إلى نسخة "محسنة للحوار"، وهو ما أثار مخاوف بشأن الشفافية والعدالة في تقييم أداء الذكاء الاصطناعي.
عادةً، تقدم الشركات نماذج غير معدلة إلى منصات الاختبار لضمان أن تعكس التقييمات الأداء الفعلي.
لكن قرار ميتا باستخدام نسخة مخصصة للاختبار ثم نشر إصدار مختلف قد يؤدي إلى سوء فهم المطورين لإمكانات النموذج الحقيقية، ويطرح تساؤلات حول مصداقية المقارنات بين النماذج المختلفة.
وأشار باحثون إلى تباينات واضحة في استجابات النسخة المتاحة للجمهور مقارنة بالإصدار المختبر في LM Arena.
حيث أظهرت النسخة المختبرة استخدامًا مفرطًا للرموز التعبيرية وإجابات مطولة بشكل غير معتاد.
يزيد هذا التباين من الشكوك حول مدى دقة نتائج الاختبارات في تمثيل الأداء الفعلي للنموذج عند استخدامه في تطبيقات حقيقية.
كما تم تداول شائعة نقلًا عن أحد الأشخاص الذي ادعى أنه موظف سابق في ميتا، استقال احتجاجًا على ممارسات الشركة في إجراء الاختبارات المعيارية
وزعم هذا الشخص أن ميتا تلاعبت بنتائج الاختبارات.
ميتا تنفي
من جانبه، نفى أحمد الدحلة، نائب رئيس قسم الذكاء الاصطناعي التوليدي في شركة ميتا، هذه الشائعات المتداولة.
وأكد الدحلة في منشور على منصة X أن "تدريب النماذج على مجموعات الاختبار هو أمر غير صحيح على الإطلاق".
واعترف الدحلة بوجود تقارير عن تفاوت في جودة أداء نموذجي Maverick و Scout بين مزودي الخدمات السحابية المختلفين الذين يستضيفون هذه النماذج.
وأرجع هذا التفاوت إلى سرعة إطلاق النماذج فور جاهزيتها، متوقعًا أن يستغرق الأمر بضعة أيام حتى يتم ضبط جميع التطبيقات العامة بشكل كامل.
كما أكد التزام ميتا بمواصلة العمل على إصلاح الأخطاء ودعم الشركاء في هذا المجال.
في الختام، تسلط هذه الواقعة الضوء على ضرورة تحسين معايير الاختبار وضمان الشفافية في تقييم أداء النماذج، حتى يتمكن المطورون من اتخاذ قرارات سليمة عند اعتماد تقنيات الذكاء الاصطناعي الجديدة.