خلال الأسبوع الأول من سبتمبر 2024، تم الإعلان عن إطلاق نموذج ذكاء اصطناعي جديد من HyperWrite، يدعى Reflection 70B، والذي وُصف بأنه أقوى نموذج مفتوح المصدر في العالم.
ورغم التوقعات العالية، سرعان ما تحول الجدل حول هذا النموذج إلى اتهامات بالفشل في تحقيق الأداء المعلن.
في هذا المقال، سنستعرض كيف بدأت القصة، وما الذي أثار الشكوك، وكيف ردت الشركة على هذه الاتهامات.
الإعلان الأول: إطلاق Reflection 70B بوصفه الأقوى
في 5 سبتمبر 2024، أعلن مات شومر، الرئيس التنفيذي لشركة HyperWrite، عن إطلاق نموذج Reflection 70B، والذي يعتمد على تقنية Meta’s Llama 3.1-70B Instruct. شومر كان متحمسًا لهذا الابتكار، واصفًا إياه بأنه "أقوى نموذج مفتوح المصدر في العالم".
ما ميز هذا النموذج هو تقنية تصحيح الأخطاء الذاتية، التي تم تصميمها لتُمكن الذكاء الاصطناعي من اكتشاف وتصحيح أخطائه أثناء عمله، و هو ما سنتطرق إليه بعد قليل.
I'm excited to announce Reflection 70B, the world’s top open-source model.
— Matt Shumer (@mattshumer_) September 5, 2024
Trained using Reflection-Tuning, a technique developed to enable LLMs to fix their own mistakes.
405B coming next week - we expect it to be the best model in the world.
Built w/ @GlaiveAI.
Read on ⬇️: pic.twitter.com/kZPW1plJuo
و قد نُشر الأداء المزعوم للنموذج عبر منصات التواصل الاجتماعي، حيث أظهرت النتائج أنه تفوق على النماذج المنافسة في اختبارات مستقلة مثل MMLU وHumanEval.
كما أُتاح للمستخدمين اختبار النموذج بأنفسهم عبر موقع تجريبي، والذي شهد تدفقًا كبيرًا من الزوار، مما دفع الفريق المسؤول إلى البحث عن حلول لتلبية الطلب المتزايد على الموارد الحاسوبية.
الوصول المجاني و استخدام Reflection 70B
و بالإضافة إلى ذلك الموقع التجريبي، يمكنك أيضًا حاليًا تجربته على
Reflection70B.net
تقنية تصحيح الأخطاء الذاتية
الميزة الأبرز لنموذج Reflection 70B هي ما يُعرف بتقنية "ضبط الانعكاس" (Reflection-Tuning)، التي تسمح للنموذج بالتعرف على أخطائه وتصحيحها قبل تقديم الإجابات للمستخدمين.
هل تذكرون الجدل الذي أثير في مجتمع X، حول هلوسة و خطأ نموذج GPT-4o في الإجابة عن سؤال " كم عدد حروف R في كلمة Strawberry؟" و قد تحدثنا عنه تفصِيليًّا من قبل.
حينها سببت إجابة GPT-4 ضجة، حيث أجاب بأن الكلمة تحتوى على حرفين R بدلا من ثلاثة.
قام شومر بتجربة نفس السؤال على Reflection 70B، حيث أجاب نموذجه الجديد بنفس الإجابة الخاطئة قبل أن يتدارك سريعًا و يصحح الخطأ و يجيب بالإجابة الصحيحة.
و ذلك وفقًا لتقنية "ضبط الانعكاس". هل اتضح الأمر لكم الآن؟
The technique that drives Reflection 70B is simple, but very powerful.
— Matt Shumer (@mattshumer_) September 5, 2024
Current LLMs have a tendency to hallucinate, and can’t recognize when they do so.
Reflection-Tuning enables LLMs to recognize their mistakes, and then correct them before committing to an answer. pic.twitter.com/pW78iXSwwb
الشكوك والاتهامات و الجدل حول Reflection 70B
بعد أيام قليلة من الإطلاق، بدأت الشكوك تتصاعد حول دقة النتائج المعلنة. في 9 سبتمبر، حيث فشلت عدة اختبارات مستقلة في تكرار الأداء المميز الذي زعمه شومر.
و سرعان ما انتشرت الاتهامات بالاحتيال في على وسائل التواصل الاجتماعي، حيث اعتبر البعض أن النموذج قد لا يكون إلا مجرد نسخة معدلة من نموذج آخر.
و انتشرت التكهنات أيضًا على مواقع مثل Hacker News
كما نشر موقع Artificial Analysis - وهي منظمة مخصصة لتحليل لنماذج الذكاء الاصطناعي- تحليلها الخاص بنموذج Reflection 70B عبر منصة X.
وذكر الموقع أن تقييمهم لأداء Reflection على اختبار MMLU - وهو اختبار يُستخدم لقياس مدى فهم النماذج للغة - لم يُظهر النتائج المُبهرة التي أعلنت عنها HyperWrite.
بل على العكس، أظهر التحليل أن أداء Reflection مُشابه لأداء نماذج أخرى أقل تطورًا، وحتى أقل من أداء نموذج Llama 3.1 70B الذي طورته شركة ميتا.
هذا التناقض الكبير بين نتائج HyperWrite ونتائج Artificial Analysis أثار شكوكًا حول دقة ادعاءات HyperWrite بخصوص قوة نموذج Reflection.
Our evaluation of Reflection Llama 3.1 70B's MMLU score resulted in the same score as Llama 3 70B and significantly lower than Meta's Llama 3.1 70B.
— Artificial Analysis (@ArtificialAnlys) September 7, 2024
A LocalLLaMA post (link below) also compared the diff of Llama 3.1 & Llama 3 weights to Reflection Llama 3.1 70B and concluded the… pic.twitter.com/hqvFp2TyCC
رد فعل شومر على الاتهامات
بعد مرور يومين على الاتهامات، خرج شومر عن صمته وقدم اعتذارًا عبر حسابه على منصة "X"، مشيرًا إلى أنه "تسرع" في الإعلان عن قدرات النموذج. ومع ذلك، لم يقدم شومر تفسيرًا واضحًا للأسباب التي أدت إلى فشل النموذج في تحقيق النتائج المتوقعة.
كما أشار شومر إلى أنه يعمل مع فريقه لفهم ما حدث، وأنه سيتم مشاركة المزيد من التفاصيل فور الحصول على جميع المعلومات.
I got ahead of myself when I announced this project, and I am sorry. That was not my intention. I made a decision to ship this new approach based on the information that we had at the moment.
— Matt Shumer (@mattshumer_) September 10, 2024
I know that many of you are excited about the potential for this and are now skeptical.…
الأثر على مجتمع الذكاء الاصطناعي
الجدل الذي أحاط بهذا النموذج أثار الكثير من النقاشات داخل مجتمع الذكاء الاصطناعي.
العديد من الخبراء، بما في ذلك الباحثين، أشاروا إلى أنه من الممكن تدريب نماذج أقل تعقيدًا لتحقيق أداء جيد في بعض الاختبارات، مما يزيد من الشكوك حول حقيقة النموذج. و هو ما أكده جيم فان، الباحث في Nvidia.
ما الذي ينتظر نموذج Reflection 70B؟
في الوقت الحالي، يبقى مستقبل نموذج Reflection 70B غير واضح. هل سيتمكن شومر وفريقه من تقديم تفسير مقنع لما حدث؟ وهل سيستعيد النموذج مكانته كمنافس حقيقي في عالم الذكاء الاصطناعي؟
و الأهم من ذلك، كيف سيؤثر هذا الجدل على ثقة المجتمع في النماذج المفتوحة المصدر؟
في الأسابيع القادمة، ستتضح الصورة أكثر مع ظهور المزيد من التفاصيل.
و بغض النظر عن النتائج، تبقى هذه القصة تذكيرًا بأهمية الشفافية والدقة في مجال الذكاء الاصطناعي، خاصة في ظل التنافس الشديد على الريادة.
يمكنك الاطلاع أيضًا على كيفية استخدام Llama-3.1 مع سرعة معالجة مذهلة.