في ظل التوسع الهائل لتطبيقات الذكاء الاصطناعي في حياتنا اليومية، يظل التحدي الأكبر الذي تواجهه هذه النماذج هو تقليل ظاهرة "الهلوسة".
وتُشير "الهلوسة" في سياق الذكاء الاصطناعي -وفقًا لتعريف شركة IBM- إلى إنتاج النماذج اللغوية الكبيرة (LLMs) لمعلومات خاطئة أو غير مدعومة بالحقائق، مما يؤدي إلى مخرجات غير دقيقة أو غير منطقية.
ما هي لوحة صدارة الهلوسة؟ وكيف تعمل؟
لوحة صدارة الهلوسة "Hallucination Leaderboard" هي تقييم طورته شركة "Vectara" لقياس مدى دقة نماذج اللغة الكبيرة عند تلخيص النصوص.
وتعتمد هذه اللوحة على نموذج خاص يُسمى "Hughes Hallucination Evaluation Model" (واختصاره HHEM)، والذي تم تدريبه على مجموعات بيانات ضخمة لتحديد ما إذا كان محتوى الملخص مُتطابقًا مع النص الأصلي أم لا.
ولإجراء التقييم، يُطلب من كل نموذج لغوي تلخيص 1000 مستند قصير، ويتم تحليل هذه الملخصات باستخدام نموذج HHEM لحساب نسبة الملخصات الدقيقة (الاتساق الواقعي) ونسبة الملخصات التي تحتوي على معلومات خاطئة (الهلوسة).
مفهوم الهلوسة في النماذج اللغوية
الهلوسة ليست مجرد خطأ عابر في الإجابة؛ بل تعكس آلية عمل النماذج اللغوية نفسها، التي تعتمد على التنبؤ بسلسلة النصوص التالية استنادًا إلى البيانات التي تم تدريبها عليها.
وفي حال افتقار النموذج إلى الإجابة الصحيحة، فإنه قد يولد محتوى يبدو منطقياً ولكنه يفتقر إلى المصداقية.
ويصف الخبراء هذه الظاهرة بأنها نتاج لكون النماذج تفتقر إلى مفهوم داخلي للحقيقة أو القدرة على التفكير المنطقي. وبالتالي، فإن "الهلوسة" هي نتيجة طبيعية لآليات تنبؤ النصوص.
تعرف بشكل أكبر على أهم مصطلحات ومفاهيم الذكاء الاصطناعي.
لماذا نركز على تلخيص النصوص لتقييم الهلوسة؟
تلخيص النصوص تعتبر أداة فعّالة لتقييم دقة نماذج اللغة لأنه تجعلنا نقارن بشكل واضح استجابة النموذج بالمعلومات المقدمة في النص الأصلي.
وبينما يصعب تحديد دقة النموذج في الرد على أي سؤال عام نظرًا لعدم معرفتنا بجميع البيانات التي تم تدريبه عليها، يسمح لنا اختبار التلخيص بقياس مدى التزام النموذج بالمعلومات الواردة في النص دون إضافات خارجية.
ويُشبه هذا الاختبار إلى حد ما أنظمة "Retrieval Augmented Generation" (RAG) المستخدمة في تطبيقات مثل Bing Chat، حيث يتم استخدام نماذج اللغة لتلخيص نتائج البحث.
تصنيف نماذج الذكاء الاصطناعي الأقل هلوسة
وفقًا لتقرير "لوحة صدارة الهلوسة" الصادر عن Vectara، تم تصنيف أفضل النماذج اللغوية بناءً على معدلات الهلوسة الأقل.
وتضمت القائمة العديد من النماذج الشهيرة مثل السلسة الأحدث من جوجل Gemini 2.0، وDeepSeek V2.5 المفتوح المصدر.
وأظهرت الدراسة -التي اعتمدت على تلخيص ألف مستند قصير باستخدام كل نموذج- أن النماذج الصغيرة والمتخصصة يمكنها تحقيق أداء يعادل أو يتفوق على النماذج الكبيرة من حيث تقليل الأخطاء.
ومن بين أبرز النتائج، أظهر نموذج Zhipu AI GLM-4-9B-Chat الصيني أدنى معدل للهلوسة بنسبة 1.3%، بالتساوي مع نموذج Google Gemini-2.0-Flash-Exp.
كما جاءت نماذج شركة OpenAI مثل GPT-4o وGPT-4-Turbo ضمن النطاق بين 1.5% و1.8%، ما يعكس جهد هذه الشركة الرائدة في تحسين دقة نماذجها.
وإليك الآن قائمة أفضل 15 نموذج ذكاء اصطناعي بناءً على معدلات الهلوسة الأقل. مع العلم أن آخر تحديث لها بتاريخ 11 ديسمبر 2024.
النموذج | الشركة | الدولة | معدل الهلوسة |
---|---|---|---|
Zhipu AI GLM-4-9B-Chat | Zhipu AI | 🇨🇳 الصين | 1.3% |
Google Gemini-2.0-Flash-Exp | 🇺🇸 الولايات المتحدة | 1.3% | |
OpenAI-o1-mini | OpenAI | 🇺🇸 الولايات المتحدة | 1.4% |
GPT-4o | OpenAI | 🇺🇸 الولايات المتحدة | 1.5% |
GPT-4o-mini | OpenAI | 🇺🇸 الولايات المتحدة | 1.7% |
GPT-4-Turbo | OpenAI | 🇺🇸 الولايات المتحدة | 1.7% |
GPT-4 | OpenAI | 🇺🇸 الولايات المتحدة | 1.8% |
GPT-3.5-Turbo | OpenAI | 🇺🇸 الولايات المتحدة | 1.9% |
DeepSeek-V2.5 | DeepSeek | 🇨🇳 الصين | 2.4% |
Microsoft Orca-2-13b | Microsoft | 🇺🇸 الولايات المتحدة | 2.5% |
Microsoft Phi-3.5-MoE-instruct | Microsoft | 🇺🇸 الولايات المتحدة | 2.5% |
Intel Neural-Chat-7B-v3-3 | Intel | 🇺🇸 الولايات المتحدة | 2.6% |
Qwen2.5-7B-Instruct | Alibaba Cloud | 🇨🇳 الصين | 2.8% |
AI21 Jamba-1.5-Mini | AI21 Labs | - | 2.9% |
Snowflake-Arctic-Instruct | Snowflake | 🇺🇸 الولايات المتحدة | 3.0% |
طريقة التقييم في لوحة صدارة الهلوسة
اعتمدت Vectara في تقييمها على نموذج HHEM-2.1، وهو نموذج تجاري، مع توفر نسخة مفتوحة المصدر (HHEM-2.1-Open) على منصتي Hugging Face و Kaggle.
وتم تدريب هذا النموذج على مجموعات بيانات مفتوحة المصدر من أبحاث "الاتساق الواقعي في التلخيص" لتعليمه كيفية التمييز بين الملخص الدقيق والملخص الذي يحتوي على هلوسة.
وتم اختبار نماذج اللغة عبر إعطائها 1000 مستند قصير لتلخيصها، مع الاعتماد فقط على المعلومات الموجودة في النص.
ومن بين 1000 مستند، تم تلخيص 831 مستندًا بنجاح من قبل جميع النماذج، بينما تم رفض 169 مستندًا بسبب قيود المحتوى، حيث اعتبرت بعض النماذج أن محتواها غير مناسب حتى مع عدم احتوائه على أي محتوى غير قانوني.
وتم حساب "معدل الاتساق الواقعي" (نسبة الملخصات الصحيحة) و"معدل الهلوسة" (100 - معدل الاتساق) لكل نموذج.
كما تم حساب "معدل الرفض" الذي يُشير إلى عدد المرات التي رفض فيها كل نموذج تلخيص مستند بسبب قيود المحتوى.
والجديد بالذكر أن معظم المستندات المُستخدمة في التقييم مأخوذة من مجموعة بيانات CNN / Daily Mail Corpus.
النماذج الصغيرة وتقليل الهلاوس
رغم تفوق النماذج الكبيرة عمومًا في الأداء، إلا أنها تواجه تحديات تتعلق بتكاليف التشغيل العالية وتعقيد الاستخدام.
وفي المقابل، أظهرت النماذج الأصغر، مثل OpenAI-o1-mini وMistral 8x7B، كفاءة ملحوظة في تقليل معدلات الهلوسة.
ووفقًا لتقرير Vectara، يُمكن للنماذج الأصغر تحقيق أداء مشابه أو أفضل في مهام محددة، وهو ما يجعلها خيارًا مناسبًا في التطبيقات الدقيقة.
أهمية تقليل معدلات الهلوسة
مع تزايد الاعتماد على الذكاء الاصطناعي في مجالات حساسة كالقانون والطب والتمويل، تصبح الحاجة إلى نماذج دقيقة وخالية من الأخطاء ضرورة ملحّة. فالأخطاء الناتجة عن الهلوسة قد تؤدي إلى عواقب وخيمة، خاصة في البيئات التي تتطلب قرارات دقيقة وسريعة.
من الجدير بالذكر أن هذا التصنيف لا يعكس فقط أداء النماذج ولكنه يبرز التحول المتزايد نحو نماذج أصغر وأكثر تخصيصًا كبديل فعال في مواجهة التحديات التقنية والاقتصادية للنماذج العملاقة.