دليل مواقع وأدوات و تطبيقات الذكاء الاصطناعي

ارتفاع الهلوسة في نماذج OpenAI o3 و o4-mini الجديدة رغم تطورها المنطقي

في خطوة مثيرة للجدل، كشفت اختبارات داخلية أجرتها شركة OpenAI أن نماذج الذكاء الاصطناعي الجديدة "o3" و"o4-mini"، المصممة خصيصًا للمهام المنطقية، تعاني من معدلات هلوسة أعلى مقارنةً بالنماذج السابقة.

ورغم أنه من المفترض -بطبيعة الحال- أن تقدم النماذج الجديدة للشركات تحسينات في تقليل الهلاوس مقارنة بالإصدارات السابقة، لكن الأمر مختلف هنا.  

يثير هذا الأمر التساؤلات حول فعالية هذه النماذج في تقديم معلومات دقيقة، خاصة في المجالات التي تتطلب موثوقية عالية مثل القانون والطب.​

ارتفاع معدلات الهلوسة في النماذج الجديدة

وفقًا لتقرير تقني صادر عن OpenAI، أظهرت النماذج "o3" و"o4-mini" معدلات هلوسة ملحوظة عند اختبارها باستخدام معيار PersonQA، وهو أداة داخلية لقياس دقة المعرفة حول الأشخاص.

وسجل النموذج "o3" معدل هلوسة بلغ 33%، بينما ارتفع هذا المعدل إلى 48% في النموذج "o4-mini".

وللمقارنة، سجلت نماذج التفكير الأقدم "o1" و"o3-mini" معدلات هلوسة أقل بكثير، بلغت 16% و14.8% على التوالي.​

ربما ترجع هذه الزيادة في الهلوسة جزئيًا إلى قدرة النماذج الجديدة على تقديم عدد أكبر من الادعاءات، مما يزيد من احتمالية تقديم معلومات غير دقيقة.

كما أظهرت اختبارات أجرتها مؤسسة Transluce، وهي مختبر أبحاث غير ربحي، أن النموذج "o3" قد يختلق تفاصيل حول كيفية وصوله إلى إجابات معينة، مثل الادعاء بتشغيل كود على جهاز MacBook Pro خارج بيئة ChatGPT، وهو أمر غير ممكن فعليًا.

التحديات في فهم أسباب الهلوسة

أشارت OpenAI إلى أن هناك حاجة لمزيد من البحث لفهم أسباب ارتفاع معدلات الهلوسة في النماذج المنطقية الجديدة.

ويُعتقد أن تقنيات التعلم المعزز المستخدمة في تدريب هذه النماذج قد تساهم في تضخيم المشكلات التي كانت تُخفف جزئيًا في النماذج السابقة.

يسلط هذا الأمر الضوء على التحديات المستمرة في تطوير نماذج ذكاء اصطناعي قادرة على تقديم معلومات دقيقة وموثوقة.​

كما أن ارتفاع معدلات الهلوسة في النماذج الجديدة يثير مخاوف بشأن استخدامها في تطبيقات تتطلب دقة عالية، مثل إعداد العقود القانونية أو تقديم المشورة الطبية.

وفي هذه السياقات، قد تؤدي المعلومات غير الدقيقة إلى عواقب وخيمة، مما يقلل من موثوقية هذه النماذج في البيئات المهنية.​

محاولات الشركة للحد من الهلوسة

في هذا الإطار، تعمل OpenAI على تحسين دقة نماذجها من خلال دمج قدرات البحث عبر الإنترنت، كما هو الحال في نموذج GPT-4o المزود بميزة البحث، والذي حقق دقة تصل إلى 90% في معيار SimpleQA.

ومع ذلك، لا تزال مسألة الهلوسة تمثل تحديًا كبيرًا، خاصة في النماذج المصممة للمهام المنطقية.​

سلوكيات غير متوقعة في ChatGPT

على جانب آخر، لاحظ بعض مستخدمي ChatGPT مؤخرًا أن النموذج بدأ في مناداتهم بأسمائهم دون أن يزودوه بها، مما أثار استغرابًا وقلقًا لدى البعض.

وعلى الرغم من أن OpenAI لم تصدر تعليقًا رسميًا حول هذا السلوك، إلا أن بعض المستخدمين أشاروا إلى أن هذه الظاهرة قد تكون مرتبطة بميزة "الذاكرة" الجديدة في ChatGPT، والتي تهدف إلى تخصيص التفاعلات بناءً على المحادثات السابقة.

مع ذلك، أبدى العديد من المستخدمين تحفظهم على هذا السلوك، معتبرين أنه قد يكون تدخليًا وغير مريح.​

على أية حال، هذا السلوك لا يدخل في إطار الهلوسة، بل قد تكون محاولة من الشركة لجعل نماذجها أكثر ودية.

وبالأخير، ستظل مسألة الهلوسة وسلوكيات النماذج محور اهتمام الباحثين والمطورين على حد سواء في إطار السعي الدائم إلى تحسين قدرات الذكاء الاصطناعي. 

Related Posts

Google تطرح Gemini 2.5 Flash رسميًا: أول نموذج هجين لها للتحكم في التفكير
  • أبريل 17, 2025

أطلقت جوجل رسميًا الإصدار التجريبي من نموذج Gemini 2.5 Flash ضمن تطبيق Gemini ومنصات المطورين مثل Google AI Studio وVertex AI….

جروك يتطور: xAI تضيف أداة Studio وميزة الذاكرة الجديدة بشكل مجاني
  • أبريل 17, 2025

أعلنت شركة “xAI” التابعة لإيلون ماسك عن إطلاق ميزتين جديدتين في روبوت الدردشة “Grok”، الأولى تحمل اسم “Grok Studio”، بينما الثانية…

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

آخر المقالات

ارتفاع الهلوسة في نماذج OpenAI o3 و o4-mini الجديدة رغم تطورها المنطقي

ارتفاع الهلوسة في نماذج OpenAI o3 و o4-mini الجديدة رغم تطورها المنطقي

Google Veo 2: تصميم الفيديوهات بالذكاء الاصطناعي باللغة العربية

Google Veo 2: تصميم الفيديوهات بالذكاء الاصطناعي باللغة العربية

Google تطرح Gemini 2.5 Flash رسميًا: أول نموذج هجين لها للتحكم في التفكير

Google تطرح Gemini 2.5 Flash رسميًا: أول نموذج هجين لها للتحكم في التفكير

جروك يتطور: xAI تضيف أداة Studio وميزة الذاكرة الجديدة بشكل مجاني

جروك يتطور: xAI تضيف أداة Studio وميزة الذاكرة الجديدة بشكل مجاني