ارتفاع الهلوسة في نماذج OpenAI o3 و o4-mini الجديدة رغم تطورها المنطقي

رسم توضيحي لروبوت يمثل نماذج الذكاء الاصطناعي OpenAI o3 و o4-mini ومشاكل الهلوسة المتعلقة بها

في خطوة مثيرة للجدل، كشفت اختبارات داخلية أجرتها شركة OpenAI أن نماذج الذكاء الاصطناعي الجديدة "o3" و"o4-mini"، المصممة خصيصًا للمهام المنطقية، تعاني من معدلات هلوسة أعلى مقارنةً بالنماذج السابقة.

ورغم أنه من المفترض -بطبيعة الحال- أن تقدم النماذج الجديدة للشركات تحسينات في تقليل الهلاوس مقارنة بالإصدارات السابقة، لكن الأمر مختلف هنا.

يثير هذا الأمر التساؤلات حول فعالية هذه النماذج في تقديم معلومات دقيقة، خاصة في المجالات التي تتطلب موثوقية عالية مثل القانون والطب.

ارتفاع معدلات الهلوسة في النماذج الجديدة

وفقًا لتقرير تقني صادر عن OpenAI، أظهرت النماذج "o3" و"o4-mini" معدلات هلوسة ملحوظة عند اختبارها باستخدام معيار PersonQA، وهو أداة داخلية لقياس دقة المعرفة حول الأشخاص.

وسجل النموذج "o3" معدل هلوسة بلغ 33%، بينما ارتفع هذا المعدل إلى 48% في النموذج "o4-mini".

وللمقارنة، سجلت نماذج التفكير الأقدم "o1" و"o3-mini" معدلات هلوسة أقل بكثير، بلغت 16% و14.8% على التوالي.

ربما ترجع هذه الزيادة في الهلوسة جزئيًا إلى قدرة النماذج الجديدة على تقديم عدد أكبر من الادعاءات، مما يزيد من احتمالية تقديم معلومات غير دقيقة.

كما أظهرت اختبارات أجرتها مؤسسة Transluce، وهي مختبر أبحاث غير ربحي، أن النموذج "o3" قد يختلق تفاصيل حول كيفية وصوله إلى إجابات معينة، مثل الادعاء بتشغيل كود على جهاز MacBook Pro خارج بيئة ChatGPT، وهو أمر غير ممكن فعليًا.

التحديات في فهم أسباب الهلوسة

أشارت OpenAI إلى أن هناك حاجة لمزيد من البحث لفهم أسباب ارتفاع معدلات الهلوسة في النماذج المنطقية الجديدة.

ويُعتقد أن تقنيات التعلم المعزز المستخدمة في تدريب هذه النماذج قد تساهم في تضخيم المشكلات التي كانت تُخفف جزئيًا في النماذج السابقة.

يسلط هذا الأمر الضوء على التحديات المستمرة في تطوير نماذج ذكاء اصطناعي قادرة على تقديم معلومات دقيقة وموثوقة.

كما أن ارتفاع معدلات الهلوسة في النماذج الجديدة يثير مخاوف بشأن استخدامها في تطبيقات تتطلب دقة عالية، مثل إعداد العقود القانونية أو تقديم المشورة الطبية.

وفي هذه السياقات، قد تؤدي المعلومات غير الدقيقة إلى عواقب وخيمة، مما يقلل من موثوقية هذه النماذج في البيئات المهنية.

محاولات الشركة للحد من الهلوسة

في هذا الإطار، تعمل OpenAI على تحسين دقة نماذجها من خلال دمج قدرات البحث عبر الإنترنت، كما هو الحال في نموذج GPT-4o المزود بميزة البحث، والذي حقق دقة تصل إلى 90% في معيار SimpleQA.

ومع ذلك، لا تزال مسألة الهلوسة تمثل تحديًا كبيرًا، خاصة في النماذج المصممة للمهام المنطقية.

سلوكيات غير متوقعة في ChatGPT

على جانب آخر، لاحظ بعض مستخدمي ChatGPT مؤخرًا أن النموذج بدأ في مناداتهم بأسمائهم دون أن يزودوه بها، مما أثار استغرابًا وقلقًا لدى البعض.

وعلى الرغم من أن OpenAI لم تصدر تعليقًا رسميًا حول هذا السلوك، إلا أن بعض المستخدمين أشاروا إلى أن هذه الظاهرة قد تكون مرتبطة بميزة "الذاكرة" الجديدة في ChatGPT، والتي تهدف إلى تخصيص التفاعلات بناءً على المحادثات السابقة.

مع ذلك، أبدى العديد من المستخدمين تحفظهم على هذا السلوك، معتبرين أنه قد يكون تدخليًا وغير مريح.

على أية حال، هذا السلوك لا يدخل في إطار الهلوسة، بل قد تكون محاولة من الشركة لجعل نماذجها أكثر ودية.

وبالأخير، ستظل مسألة الهلوسة وسلوكيات النماذج محور اهتمام الباحثين والمطورين على حد سواء في إطار السعي الدائم إلى تحسين قدرات الذكاء الاصطناعي.