دليل مواقع وأدوات و تطبيقات الذكاء الاصطناعي

أفضل نماذج الذكاء الاصطناعي الأقل هلوسة – تحليل شامل

في ظل التوسع الهائل لتطبيقات الذكاء الاصطناعي في حياتنا اليومية، يظل التحدي الأكبر الذي تواجهه هذه النماذج هو تقليل ظاهرة "الهلوسة".

وتُشير "الهلوسة" في سياق الذكاء الاصطناعي -وفقًا لتعريف شركة IBM- إلى إنتاج النماذج اللغوية الكبيرة (LLMs) لمعلومات خاطئة أو غير مدعومة بالحقائق، مما يؤدي إلى مخرجات غير دقيقة أو غير منطقية.

ما هي لوحة صدارة الهلوسة؟ وكيف تعمل؟

لوحة صدارة الهلوسة "Hallucination Leaderboard" هي تقييم طورته شركة "Vectara" لقياس مدى دقة نماذج اللغة الكبيرة عند تلخيص النصوص.

وتعتمد هذه اللوحة على نموذج خاص يُسمى "Hughes Hallucination Evaluation Model" (واختصاره HHEM)، والذي تم تدريبه على مجموعات بيانات ضخمة لتحديد ما إذا كان محتوى الملخص مُتطابقًا مع النص الأصلي أم لا.

ولإجراء التقييم، يُطلب من كل نموذج لغوي تلخيص 1000 مستند قصير، ويتم تحليل هذه الملخصات باستخدام نموذج HHEM لحساب نسبة الملخصات الدقيقة (الاتساق الواقعي) ونسبة الملخصات التي تحتوي على معلومات خاطئة (الهلوسة).

مفهوم الهلوسة في النماذج اللغوية

الهلوسة ليست مجرد خطأ عابر في الإجابة؛ بل تعكس آلية عمل النماذج اللغوية نفسها، التي تعتمد على التنبؤ بسلسلة النصوص التالية استنادًا إلى البيانات التي تم تدريبها عليها.

وفي حال افتقار النموذج إلى الإجابة الصحيحة، فإنه قد يولد محتوى يبدو منطقياً ولكنه يفتقر إلى المصداقية.

ويصف الخبراء هذه الظاهرة بأنها نتاج لكون النماذج تفتقر إلى مفهوم داخلي للحقيقة أو القدرة على التفكير المنطقي. وبالتالي، فإن "الهلوسة" هي نتيجة طبيعية لآليات تنبؤ النصوص.

تعرف بشكل أكبر على أهم مصطلحات ومفاهيم الذكاء الاصطناعي.

لماذا نركز على تلخيص النصوص لتقييم الهلوسة؟

تلخيص النصوص تعتبر أداة فعّالة لتقييم دقة نماذج اللغة لأنه تجعلنا نقارن بشكل واضح استجابة النموذج بالمعلومات المقدمة في النص الأصلي.

وبينما يصعب تحديد دقة النموذج في الرد على أي سؤال عام نظرًا لعدم معرفتنا بجميع البيانات التي تم تدريبه عليها، يسمح لنا اختبار التلخيص بقياس مدى التزام النموذج بالمعلومات الواردة في النص دون إضافات خارجية.

ويُشبه هذا الاختبار إلى حد ما أنظمة "Retrieval Augmented Generation" (RAG) المستخدمة في تطبيقات مثل Bing Chat، حيث يتم استخدام نماذج اللغة لتلخيص نتائج البحث.

تصنيف نماذج الذكاء الاصطناعي الأقل هلوسة

وفقًا لتقرير "لوحة صدارة الهلوسة" الصادر عن Vectara، تم تصنيف أفضل النماذج اللغوية بناءً على معدلات الهلوسة الأقل.

وتضمت القائمة العديد من النماذج الشهيرة مثل السلسة الأحدث من جوجل Gemini 2.0، وDeepSeek V2.5 المفتوح المصدر.

وأظهرت الدراسة -التي اعتمدت على تلخيص ألف مستند قصير باستخدام كل نموذج- أن النماذج الصغيرة والمتخصصة يمكنها تحقيق أداء يعادل أو يتفوق على النماذج الكبيرة من حيث تقليل الأخطاء.

ومن بين أبرز النتائج، أظهر نموذج Zhipu AI GLM-4-9B-Chat الصيني أدنى معدل للهلوسة بنسبة 1.3%، بالتساوي مع نموذج Google Gemini-2.0-Flash-Exp.

كما جاءت نماذج شركة OpenAI مثل GPT-4o وGPT-4-Turbo ضمن النطاق بين 1.5% و1.8%، ما يعكس جهد هذه الشركة الرائدة في تحسين دقة نماذجها.

وإليك الآن قائمة أفضل 15 نموذج ذكاء اصطناعي بناءً على معدلات الهلوسة الأقل. مع العلم أن آخر تحديث لها بتاريخ 11 ديسمبر 2024.

 

النموذجالشركةالدولةمعدل الهلوسة
Zhipu AI GLM-4-9B-ChatZhipu AI🇨🇳 الصين1.3%
Google Gemini-2.0-Flash-ExpGoogle🇺🇸 الولايات المتحدة1.3%
OpenAI-o1-miniOpenAI🇺🇸 الولايات المتحدة1.4%
GPT-4oOpenAI🇺🇸 الولايات المتحدة1.5%
GPT-4o-miniOpenAI🇺🇸 الولايات المتحدة1.7%
GPT-4-TurboOpenAI🇺🇸 الولايات المتحدة1.7%
GPT-4OpenAI🇺🇸 الولايات المتحدة1.8%
GPT-3.5-TurboOpenAI🇺🇸 الولايات المتحدة1.9%
DeepSeek-V2.5DeepSeek🇨🇳 الصين2.4%
Microsoft Orca-2-13bMicrosoft🇺🇸 الولايات المتحدة2.5%
Microsoft Phi-3.5-MoE-instructMicrosoft🇺🇸 الولايات المتحدة2.5%
Intel Neural-Chat-7B-v3-3Intel🇺🇸 الولايات المتحدة2.6%
Qwen2.5-7B-InstructAlibaba Cloud🇨🇳 الصين2.8%
AI21 Jamba-1.5-MiniAI21 Labs-2.9%
Snowflake-Arctic-InstructSnowflake🇺🇸 الولايات المتحدة3.0%

طريقة التقييم في لوحة صدارة الهلوسة

اعتمدت Vectara في تقييمها على نموذج HHEM-2.1، وهو نموذج تجاري، مع توفر نسخة مفتوحة المصدر (HHEM-2.1-Open) على منصتي Hugging Face و Kaggle.

وتم تدريب هذا النموذج على مجموعات بيانات مفتوحة المصدر من أبحاث "الاتساق الواقعي في التلخيص" لتعليمه كيفية التمييز بين الملخص الدقيق والملخص الذي يحتوي على هلوسة.

وتم اختبار نماذج اللغة عبر إعطائها 1000 مستند قصير لتلخيصها، مع الاعتماد فقط على المعلومات الموجودة في النص.

ومن بين 1000 مستند، تم تلخيص 831 مستندًا بنجاح من قبل جميع النماذج، بينما تم رفض 169 مستندًا بسبب قيود المحتوى، حيث اعتبرت بعض النماذج أن محتواها غير مناسب حتى مع عدم احتوائه على أي محتوى غير قانوني.

وتم حساب "معدل الاتساق الواقعي" (نسبة الملخصات الصحيحة) و"معدل الهلوسة" (100 - معدل الاتساق) لكل نموذج.

كما تم حساب "معدل الرفض" الذي يُشير إلى عدد المرات التي رفض فيها كل نموذج تلخيص مستند بسبب قيود المحتوى.

والجديد بالذكر أن معظم المستندات المُستخدمة في التقييم مأخوذة من مجموعة بيانات CNN / Daily Mail Corpus.

النماذج الصغيرة وتقليل الهلاوس

رغم تفوق النماذج الكبيرة عمومًا في الأداء، إلا أنها تواجه تحديات تتعلق بتكاليف التشغيل العالية وتعقيد الاستخدام.

وفي المقابل، أظهرت النماذج الأصغر، مثل OpenAI-o1-mini وMistral 8x7B، كفاءة ملحوظة في تقليل معدلات الهلوسة.

ووفقًا لتقرير Vectara، يُمكن للنماذج الأصغر تحقيق أداء مشابه أو أفضل في مهام محددة، وهو ما يجعلها خيارًا مناسبًا في التطبيقات الدقيقة.

أهمية تقليل معدلات الهلوسة

مع تزايد الاعتماد على الذكاء الاصطناعي في مجالات حساسة كالقانون والطب والتمويل، تصبح الحاجة إلى نماذج دقيقة وخالية من الأخطاء ضرورة ملحّة. فالأخطاء الناتجة عن الهلوسة قد تؤدي إلى عواقب وخيمة، خاصة في البيئات التي تتطلب قرارات دقيقة وسريعة.

من الجدير بالذكر أن هذا التصنيف لا يعكس فقط أداء النماذج ولكنه يبرز التحول المتزايد نحو نماذج أصغر وأكثر تخصيصًا كبديل فعال في مواجهة التحديات التقنية والاقتصادية للنماذج العملاقة.

Related Posts

MyTimeMachine: التنبؤ بمظهرك في أعمار مختلفة بدقة عالية
  • ديسمبر 2, 2024

أعلن فريق من جامعتي نورث كارولاينا وميريلاند عن تطوير تقنية جديدة أطلقوا عليها اسم “MyTimeMachine”(MyTM)“، والتي تقدم تجربة لاستكشاف كيف سيبدو…

اقرأ المزيد

محركات البحث بالذكاء الاصطناعي: هل نثق بها؟
  • نوفمبر 20, 2024

مع تطور تقنيات الذكاء الاصطناعي بشكل غير مسبوق، يتجه العديد من الشركات الكبرى إلى دمج هذه التكنولوجيا في محركات البحث الخاصة…

اقرأ المزيد

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

مقالات قد تهمك

LlamaV-o1 وVRC-Bench: إنجاز عربي جديد في الذكاء الاصطناعي!

    LlamaV-o1 وVRC-Bench: إنجاز عربي جديد في الذكاء الاصطناعي!

    AIConvert: موقع ذكاء اصطناعي عربي مجاني لإنشاء وتعديل وترميم الصور

      AIConvert: موقع ذكاء اصطناعي عربي مجاني لإنشاء وتعديل وترميم الصور

      أفضل نماذج الذكاء الاصطناعي الأقل هلوسة – تحليل شامل

        أفضل نماذج الذكاء الاصطناعي الأقل هلوسة – تحليل شامل

        بتكلفة 450 دولارًا فقط، تطوير نموذج تفكير ينافس OpenAI o1

          بتكلفة 450 دولارًا فقط، تطوير نموذج تفكير ينافس OpenAI o1

          دخل جديد من يوتيوب: شركات الذكاء الاصطناعي تشتري فيديوهاتك غير المستخدمة

            دخل جديد من يوتيوب: شركات الذكاء الاصطناعي تشتري فيديوهاتك غير المستخدمة