دليل مواقع وأدوات و تطبيقات الذكاء الاصطناعي

ميتا تواجه انتقادات حادة بسبب اختبارات أداء Llama 4، والشركة ترد

تواجه شركة ميتا انتقادات حادة من قبل الباحثين في مجال الذكاء الاصطناعي بسبب تقديمها نسخة معدلة من نماذج جيلها الأحدث Llama 4 لاختبارات الأداء، مما أدى إلى تضليل المطورين بشأن قدراته الحقيقية.

وانتشرت الشائعات حول قيام الشركة بتدريب نسخة محسنة من نموذج Maverick -أحد إصدارات هذا الجيل- خصيصًا لتحسين أدائها في اختبارات الأداء المعيارية وإخفاء نقاط ضعفها.

أداء متفاوت بين النسخ

وفقًا لتقرير نشره موقع TechCrunch، تبين أن Maverick حصل على المرتبة الثانية في منصة LM Arena، التي تعتمد على مراجعات بشرية لتقييم أداء نماذج الذكاء الاصطناعي.

إلا أن النسخة التي تم اختبارها لم تكن نفسها التي أتاحتها ميتا للمطورين.

وأوضحت الشركة عبر مدونتها الرسمية أن النسخة المستخدمة في LM Arena كانت إصدارًا تجريبيًا مخصصًا للمحادثات، وهو ما يختلف عن النسخة العامة المتاحة للجمهور.

كما أكدت بيانات منشورة على الموقع الرسمي لنموذج Llama أن الاختبار استند إلى نسخة "محسنة للحوار"، وهو ما أثار مخاوف بشأن الشفافية والعدالة في تقييم أداء الذكاء الاصطناعي.

عادةً، تقدم الشركات نماذج غير معدلة إلى منصات الاختبار لضمان أن تعكس التقييمات الأداء الفعلي.

لكن قرار ميتا باستخدام نسخة مخصصة للاختبار ثم نشر إصدار مختلف قد يؤدي إلى سوء فهم المطورين لإمكانات النموذج الحقيقية، ويطرح تساؤلات حول مصداقية المقارنات بين النماذج المختلفة.

وأشار باحثون إلى تباينات واضحة في استجابات النسخة المتاحة للجمهور مقارنة بالإصدار المختبر في LM Arena.

حيث أظهرت النسخة المختبرة استخدامًا مفرطًا للرموز التعبيرية وإجابات مطولة بشكل غير معتاد.

يزيد هذا التباين من الشكوك حول مدى دقة نتائج الاختبارات في تمثيل الأداء الفعلي للنموذج عند استخدامه في تطبيقات حقيقية.

كما تم تداول شائعة نقلًا عن أحد الأشخاص الذي ادعى أنه موظف سابق في ميتا، استقال احتجاجًا على ممارسات الشركة في إجراء الاختبارات المعيارية

وزعم هذا الشخص أن ميتا تلاعبت بنتائج الاختبارات.

ميتا تنفي

من جانبه، نفى أحمد الدحلة، نائب رئيس قسم الذكاء الاصطناعي التوليدي في شركة ميتا، هذه الشائعات المتداولة.

وأكد الدحلة في منشور على منصة X أن "تدريب النماذج على مجموعات الاختبار هو أمر غير صحيح على الإطلاق".

واعترف الدحلة بوجود تقارير عن تفاوت في جودة أداء نموذجي Maverick و Scout بين مزودي الخدمات السحابية المختلفين الذين يستضيفون هذه النماذج.

وأرجع هذا التفاوت إلى سرعة إطلاق النماذج فور جاهزيتها، متوقعًا أن يستغرق الأمر بضعة أيام حتى يتم ضبط جميع التطبيقات العامة بشكل كامل.

كما أكد التزام ميتا بمواصلة العمل على إصلاح الأخطاء ودعم الشركاء في هذا المجال.

في الختام، تسلط هذه الواقعة الضوء على ضرورة تحسين معايير الاختبار وضمان الشفافية في تقييم أداء النماذج، حتى يتمكن المطورون من اتخاذ قرارات سليمة عند اعتماد تقنيات الذكاء الاصطناعي الجديدة.

Related Posts

Adobe Firefly 4: نماذج صور وفيديو جديدة وتطبيق للهواتف قريبًا
  • أبريل 25, 2025

كشفت شركة أدوبي عن إطلاق الجيل الأحدث من نماذج Firefly لتوليد الصور والفيديوهات، إلى جانب إعادة تصميم تطبيق Firefly على الويب،…

Grok Vision: تحديث جديد يمكّن مساعد xAI من رؤية العالم بالكاميرا
  • أبريل 24, 2025

أعلنت شركة xAI، التابعة لإيلون ماسك، عن تحديث جديد لمساعدها الذكي “Grok” يتيح له الآن استخدام الكاميرا للتعرف على العالم المحيط…

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

آخر المقالات

DeepWiki: أداة ذكاء اصطناعي لفهم مشاريع GitHub عبر شروحات ومخططات تفاعلية

DeepWiki: أداة ذكاء اصطناعي لفهم مشاريع GitHub عبر شروحات ومخططات تفاعلية

OpenAI تستعد لإطلاق نموذج مفتوح للتنزيل المجاني بقدرات تنافس DeepSeek وMeta

OpenAI تستعد لإطلاق نموذج مفتوح للتنزيل المجاني بقدرات تنافس DeepSeek وMeta

Adobe Firefly 4: نماذج صور وفيديو جديدة وتطبيق للهواتف قريبًا

Adobe Firefly 4: نماذج صور وفيديو جديدة وتطبيق للهواتف قريبًا

Fireflies.ai تطلق تطبيقات ذكاء اصطناعي لإنجاز سير عملك بسهولة

Fireflies.ai تطلق تطبيقات ذكاء اصطناعي لإنجاز سير عملك بسهولة