دليل مواقع وأدوات و تطبيقات الذكاء الاصطناعي

إطلاق Reflection 70B | نموذج ذكاء اصطناعي يثير الجدل والاتهامات

خلال الأسبوع الأول من سبتمبر 2024، تم الإعلان عن إطلاق نموذج ذكاء اصطناعي جديد من HyperWrite، يدعى Reflection 70B، والذي وُصف بأنه أقوى نموذج مفتوح المصدر في العالم.

ورغم التوقعات العالية، سرعان ما تحول الجدل حول هذا النموذج إلى اتهامات بالفشل في تحقيق الأداء المعلن.

في هذا المقال، سنستعرض كيف بدأت القصة، وما الذي أثار الشكوك، وكيف ردت الشركة على هذه الاتهامات.

الإعلان الأول: إطلاق Reflection 70B بوصفه الأقوى

في 5 سبتمبر 2024، أعلن مات شومر، الرئيس التنفيذي لشركة HyperWrite، عن إطلاق نموذج Reflection 70B، والذي يعتمد على تقنية Meta’s Llama 3.1-70B Instruct. شومر كان متحمسًا لهذا الابتكار، واصفًا إياه بأنه "أقوى نموذج مفتوح المصدر في العالم".

ما ميز هذا النموذج هو تقنية تصحيح الأخطاء الذاتية، التي تم تصميمها لتُمكن الذكاء الاصطناعي من اكتشاف وتصحيح أخطائه أثناء عمله، و هو ما سنتطرق إليه بعد قليل.

و قد نُشر الأداء المزعوم للنموذج عبر منصات التواصل الاجتماعي، حيث أظهرت النتائج أنه تفوق على النماذج المنافسة في اختبارات مستقلة مثل MMLU وHumanEval.

جدول يوضح نتائج اختبارات أداء نموذج Reflection 70B، كما ادعاها مصمم النموذج.
نتائج اختبارات أداء نموذج Reflection 70B (حسب ادعاءات HyperWrite)

كما أُتاح للمستخدمين اختبار النموذج بأنفسهم عبر موقع تجريبي، والذي شهد تدفقًا كبيرًا من الزوار، مما دفع الفريق المسؤول إلى البحث عن حلول لتلبية الطلب المتزايد على الموارد الحاسوبية.

 

الوصول المجاني و استخدام Reflection 70B 

و بالإضافة إلى ذلك الموقع التجريبي، يمكنك أيضًا حاليًا تجربته على
Reflection70B.net

Multichatai.com

Openrouter.ai

تقنية تصحيح الأخطاء الذاتية

الميزة الأبرز لنموذج Reflection 70B هي ما يُعرف بتقنية "ضبط الانعكاس" (Reflection-Tuning)، التي تسمح للنموذج بالتعرف على أخطائه وتصحيحها قبل تقديم الإجابات للمستخدمين.

هل تذكرون الجدل الذي أثير في مجتمع X، حول هلوسة و خطأ نموذج GPT-4o في الإجابة عن سؤال " كم عدد حروف R في كلمة Strawberry؟" و قد تحدثنا عنه تفصِيليًّا من قبل.

حينها سببت إجابة GPT-4 ضجة، حيث أجاب بأن الكلمة تحتوى على حرفين R بدلا من ثلاثة.

قام شومر بتجربة نفس السؤال على Reflection 70B، حيث أجاب نموذجه الجديد بنفس الإجابة الخاطئة قبل أن يتدارك سريعًا و يصحح الخطأ و يجيب بالإجابة الصحيحة.

و ذلك وفقًا لتقنية "ضبط الانعكاس". هل اتضح الأمر لكم الآن؟

 

الشكوك والاتهامات و الجدل حول Reflection 70B 

بعد أيام قليلة من الإطلاق، بدأت الشكوك تتصاعد حول دقة النتائج المعلنة. في 9 سبتمبر، حيث فشلت عدة اختبارات مستقلة في تكرار الأداء المميز الذي زعمه شومر.

و سرعان ما انتشرت الاتهامات بالاحتيال في على وسائل التواصل الاجتماعي، حيث اعتبر البعض أن النموذج قد لا يكون إلا مجرد نسخة معدلة من نموذج آخر.

و انتشرت التكهنات أيضًا على مواقع مثل Hacker News 

كما نشر موقع Artificial Analysis - وهي منظمة مخصصة لتحليل لنماذج الذكاء الاصطناعي-  تحليلها الخاص بنموذج Reflection 70B عبر منصة X.
وذكر الموقع أن تقييمهم لأداء Reflection على اختبار MMLU - وهو اختبار يُستخدم لقياس مدى فهم النماذج للغة - لم يُظهر النتائج المُبهرة التي أعلنت عنها HyperWrite.

بل على العكس، أظهر التحليل أن أداء Reflection مُشابه لأداء نماذج أخرى أقل تطورًا، وحتى أقل من أداء نموذج Llama 3.1 70B الذي طورته شركة ميتا.

هذا التناقض الكبير بين نتائج HyperWrite ونتائج Artificial Analysis أثار شكوكًا حول دقة ادعاءات HyperWrite بخصوص قوة نموذج Reflection.

رد فعل شومر على الاتهامات

بعد مرور يومين على الاتهامات، خرج شومر عن صمته وقدم اعتذارًا عبر حسابه على منصة "X"، مشيرًا إلى أنه "تسرع" في الإعلان عن قدرات النموذج. ومع ذلك، لم يقدم شومر تفسيرًا واضحًا للأسباب التي أدت إلى فشل النموذج في تحقيق النتائج المتوقعة.

كما أشار شومر إلى أنه يعمل مع فريقه لفهم ما حدث، وأنه سيتم مشاركة المزيد من التفاصيل فور الحصول على جميع المعلومات.

الأثر على مجتمع الذكاء الاصطناعي

الجدل الذي أحاط بهذا النموذج أثار الكثير من النقاشات داخل مجتمع الذكاء الاصطناعي.

العديد من الخبراء، بما في ذلك الباحثين، أشاروا إلى أنه من الممكن تدريب نماذج أقل تعقيدًا لتحقيق أداء جيد في بعض الاختبارات، مما يزيد من الشكوك حول حقيقة النموذج. و هو ما أكده جيم فان، الباحث في Nvidia.

ما الذي ينتظر نموذج Reflection 70B؟

في الوقت الحالي، يبقى مستقبل نموذج Reflection 70B غير واضح. هل سيتمكن شومر وفريقه من تقديم تفسير مقنع لما حدث؟ وهل سيستعيد النموذج مكانته كمنافس حقيقي في عالم الذكاء الاصطناعي؟

و الأهم من ذلك، كيف سيؤثر هذا الجدل على ثقة المجتمع في النماذج المفتوحة المصدر؟

في الأسابيع القادمة، ستتضح الصورة أكثر مع ظهور المزيد من التفاصيل.

و بغض النظر عن النتائج، تبقى هذه القصة تذكيرًا بأهمية الشفافية والدقة في مجال الذكاء الاصطناعي، خاصة في ظل التنافس الشديد على الريادة.

يمكنك الاطلاع أيضًا على كيفية استخدام Llama-3.1 مع سرعة معالجة مذهلة.

Related Posts

OpenAI o3: نموذج بقدرات بشرية، هل يحقق الذكاء الاصطناعي العام؟

احتفظت شركة OpenAI بمفاجئتها حتى أخر يوم من حدث “12 يومًا من OpenAI”، لتعلن عن…

اقرأ المزيد

أوبن إيه آي تتيح التحدث مع ChatGPT هاتفيًا وعبر تطبيق واتساب

في خطوة تهدف إلى جعل الذكاء الاصطناعي أكثر وصولاً للجميع، أطلقت OpenAI ميزة جديدة تسمح…

اقرأ المزيد

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

مقالات قد تهمك

OpenAI o3: نموذج بقدرات بشرية، هل يحقق الذكاء الاصطناعي العام؟

    OpenAI o3: نموذج بقدرات بشرية، هل يحقق الذكاء الاصطناعي العام؟

    Stylor AI: حوّل الصور إلى تصميمات إبداعية بالذكاء الاصطناعي مجانًا

      Stylor AI: حوّل الصور إلى تصميمات إبداعية بالذكاء الاصطناعي مجانًا

      Leffa: تركيب وتغيير الملابس وتعديل وضعيات الجسم مجانًا

        Leffa: تركيب وتغيير الملابس وتعديل وضعيات الجسم مجانًا

        أوبن إيه آي تتيح التحدث مع ChatGPT هاتفيًا وعبر تطبيق واتساب

          أوبن إيه آي تتيح التحدث مع ChatGPT هاتفيًا وعبر تطبيق واتساب

          جوجل تنافس OpenAI بأداة Veo 2 للفيديو، و”Whisk” لدمج الصور

            جوجل تنافس OpenAI بأداة Veo 2 للفيديو، و”Whisk” لدمج الصور