دليل مواقع وأدوات و تطبيقات الذكاء الاصطناعي

أخطاء عن مصر القديمة! هل يفهم الذكاء الاصطناعي التاريخ حقًا؟

قد تكون تقنيات الذكاء الاصطناعي قد أثبتت جدارتها في العديد من المهام مثل البرمجة و إنشاء المحتوى الصوتي، لكنها ما زالت تواجه تحديات كبيرة في فهم التاريخ العميق والمعقد.

دراسة حديثة سلطت الضوء على هذه النقطة، حيث أظهرت أن النماذج اللغوية الكبيرة (LLMs) مثل GPT-4 من OpenAI وGemini من Google وLlama من Meta تعاني عند التعامل مع أسئلة تاريخية متقدمة.

وفي محاولة لفهم حدود هذه النماذج، ابتكر فريق من الباحثين معيارًا جديدًا باسم "Hist-LLM" لتقييم قدرتها على الإجابة عن أسئلة تاريخية معقدة.

استند المعيار إلى قاعدة بيانات "Seshat Global History Databank"، وهي واحدة من أكثر قواعد البيانات التاريخية شمولًا.

وأظهرت النتائج -التي عُرضت في مؤتمر NeurIPS للذكاء الاصطناعي- أن أفضل النماذج، مثل GPT-4 Turbo، حققت دقة تبلغ حوالي 46% فقط.

هذه النسبة تتعلق بالاختبار رباعي الخيارات (أربع اختيارات لكل إجابة)، وهي أعلى من التخمين العشوائي (25%) ولكن لا تزال بعيدة عن مستوى الخبراء.

تفاوت الأداء بين نماذج الذكاء الاصطناعي

جدول مقارنة أداء 7 نماذج ذكاء اصطناعي في اختبارات التاريخ متعددة وثنائية الخيارات، وفقًا لمعيار Hist-LLM
نتائج دقة نماذج الذكاء الاصطناعي في اختبارات التاريخ وفقًا لمعيار Hist-LLM (في حالة اختيارين أو أربعة لكل إجابة).

أظهرت النتائج أيضًا أن أداء النماذج يتفاوت بناءً على حجمها وبيانات تدريبها.

وحقق GPT-4o أفضل أداء في الاختبارات ذات الخيارات الثنائية بدقة 63.2%، بينما كان Llama-3.1-8B هو الأضعف بين النماذج.

دعونا أيضًا نلقي شاملة على تقييم النماذج عند وجود خيارين فقط للإجابة.

في هذه الحالة تكون نسبة التخمين العشوائي هي 50%.

بينما متوسط أداء النماذج بشكل عام كما نرى بالجدول، في حدود 60%. 

لذلك، وعلى الرغم من تفوق النماذج الأكبر حجمًا مثل GPT-4 على نظيراتها الأصغر، فإن الأداء العام ما زال بعيدًا عن مستوى الخبراء البشريين.

أداء ضعيف في السياقات التاريخية الدقيقة

أشارت الباحثة ماريا ديل ريو-تشانونا من جامعة كوليدج لندن بأن هذه النتائج تؤكد أن الذكاء الاصطناعي يفتقر حتى الآن إلى العمق المعرفي اللازم لفهم التاريخ المتقدم.

وأوضحت أن النماذج الحالية قد تكون جيدة في تقديم حقائق بسيطة، لكنها تفشل عندما يتعلق الأمر بالأسئلة الدقيقة التي تتطلب معرفة تفصيلية.

أمثلة على الأخطاء الشائعة

ومن بين الأخطاء التي رصدها الباحثون، عندما تم سؤال GPT-4 Turbo عن وجود الدروع المدرعة خلال فترة معينة في مصر القديمة.

فقد أعطى إجابة خاطئة، مدعيًا وجودها قبل 1500 عام من ظهورها الفعلي.

كما أخطأ النموذج في الإجابة عن سؤال حول وجود جيش محترف في مصر القديمة خلال حقبة زمنية معينة، مشيرًا إلى وجوده رغم أن الحقيقة التاريخية تثبت عكس ذلك.

لماذا يخطئ الذكاء الاصطناعي؟

وفقًا للدراسة، تعود هذه الأخطاء إلى ميل النماذج إلى التركيز على البيانات البارزة والشائعة، مما يجعلها أقل قدرة على استرجاع المعلومات التاريخية الدقيقة أو النادرة.

فعلى سبيل المثال، عندما يحتوي التدريب على مئات الأمثلة من حقائق معروفة عن إمبراطوريات كبرى مثل فارس، ولكنه يفتقر إلى تفاصيل دقيقة عن مناطق مثل إفريقيا جنوب الصحراء، يتضح القصور في المعلومات.

اقرأ أيضًا: كيف يخدعنا الذكاء الاصطناعي بإجابات مقنعة؟

وعلى الرغم من هذه التحديات، يظل الأمل قائمًا بأن تساهم النماذج اللغوية في دعم الباحثين التاريخيين في المستقبل.

ويعمل فريق الدراسة حاليًا على تحسين معايير الاختبار لتشمل بيانات أكثر شمولًا وأسئلة أكثر تعقيدًا، مع التركيز على المناطق التي تعاني من نقص التمثيل في البيانات التاريخية.

وقد أشار الباحث الرئيسي في الدراسة -بيتر تورتشين- إلى أن هذه النماذج لن تحل محل المؤرخين في المستقبل القريب، لكنها قد تصبح أدوات مساعدة قيمة بمجرد معالجة نقاط ضعفها الحالية.

Related Posts

أفضل نماذج الذكاء الاصطناعي الأقل هلوسة – تحليل شامل
  • يناير 12, 2025

في ظل التوسع الهائل لتطبيقات الذكاء الاصطناعي في حياتنا اليومية، يظل التحدي الأكبر الذي تواجهه هذه النماذج هو تقليل ظاهرة “الهلوسة”….

اقرأ المزيد

MyTimeMachine: التنبؤ بمظهرك في أعمار مختلفة بدقة عالية
  • ديسمبر 2, 2024

أعلن فريق من جامعتي نورث كارولاينا وميريلاند عن تطوير تقنية جديدة أطلقوا عليها اسم “MyTimeMachine”(MyTM)“، والتي تقدم تجربة لاستكشاف كيف سيبدو…

اقرأ المزيد

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

مقالات قد تهمك

إطلاق النسخة الأحدث من نموذج التفكير Gemini 2.0 غدًا

    إطلاق النسخة الأحدث من نموذج التفكير Gemini 2.0 غدًا

    أنجزت مهامي بسهولة مجانًا مع Gemini Advanced وإليك مراجعة شاملة

      أنجزت مهامي بسهولة مجانًا مع Gemini Advanced وإليك مراجعة شاملة

      إطلاق النموذج الرئيسي DeepSeek R1: مفتوح المصدر ومنافسًا بقوة OpenAI o1

        إطلاق النموذج الرئيسي DeepSeek R1: مفتوح المصدر ومنافسًا بقوة OpenAI o1

        أخطاء عن مصر القديمة! هل يفهم الذكاء الاصطناعي التاريخ حقًا؟

          أخطاء عن مصر القديمة! هل يفهم الذكاء الاصطناعي التاريخ حقًا؟

          Weights.gg: توليد الصور والفيديو والصوت وتدريب نماذج الذكاء الاصطناعي مجانًا

            Weights.gg: توليد الصور والفيديو والصوت وتدريب نماذج الذكاء الاصطناعي مجانًا