أخطاء عن مصر القديمة! هل يفهم الذكاء الاصطناعي التاريخ حقًا؟

صورة تجريدية تظهر شبكة بيانات تربط نماذج الذكاء الاصطناعي (GPT-4، Gemini، Llama) مع خلفية الأهرامات المصرية، تعبر عن محاولة الذكاء الاصطناعي فهم التاريخ.

قد تكون تقنيات الذكاء الاصطناعي قد أثبتت جدارتها في العديد من المهام مثل البرمجة و إنشاء المحتوى الصوتي، لكنها ما زالت تواجه تحديات كبيرة في فهم التاريخ العميق والمعقد.

دراسة حديثة سلطت الضوء على هذه النقطة، حيث أظهرت أن النماذج اللغوية الكبيرة (LLMs) مثل GPT-4 من OpenAI وGemini من Google وLlama من Meta تعاني عند التعامل مع أسئلة تاريخية متقدمة.

وفي محاولة لفهم حدود هذه النماذج، ابتكر فريق من الباحثين معيارًا جديدًا باسم "Hist-LLM" لتقييم قدرتها على الإجابة عن أسئلة تاريخية معقدة.

استند المعيار إلى قاعدة بيانات "Seshat Global History Databank"، وهي واحدة من أكثر قواعد البيانات التاريخية شمولًا.

وأظهرت النتائج -التي عُرضت في مؤتمر NeurIPS للذكاء الاصطناعي- أن أفضل النماذج، مثل GPT-4 Turbo، حققت دقة تبلغ حوالي 46% فقط.

هذه النسبة تتعلق بالاختبار رباعي الخيارات (أربع اختيارات لكل إجابة)، وهي أعلى من التخمين العشوائي (25%) ولكن لا تزال بعيدة عن مستوى الخبراء.

تفاوت الأداء بين نماذج الذكاء الاصطناعي

جدول مقارنة أداء 7 نماذج ذكاء اصطناعي في اختبارات التاريخ متعددة وثنائية الخيارات، وفقًا لمعيار Hist-LLM

نتائج دقة نماذج الذكاء الاصطناعي في اختبارات التاريخ وفقًا لمعيار Hist-LLM (في حالة اختيارين أو أربعة لكل إجابة).

أظهرت النتائج أيضًا أن أداء النماذج يتفاوت بناءً على حجمها وبيانات تدريبها.

وحقق GPT-4o أفضل أداء في الاختبارات ذات الخيارات الثنائية بدقة 63.2%، بينما كان Llama-3.1-8B هو الأضعف بين النماذج.

دعونا أيضًا نلقي شاملة على تقييم النماذج عند وجود خيارين فقط للإجابة.

في هذه الحالة تكون نسبة التخمين العشوائي هي 50%.

بينما متوسط أداء النماذج بشكل عام كما نرى بالجدول، في حدود 60%.

لذلك، وعلى الرغم من تفوق النماذج الأكبر حجمًا مثل GPT-4 على نظيراتها الأصغر، فإن الأداء العام ما زال بعيدًا عن مستوى الخبراء البشريين.

أداء ضعيف في السياقات التاريخية الدقيقة

أشارت الباحثة ماريا ديل ريو-تشانونا من جامعة كوليدج لندن بأن هذه النتائج تؤكد أن الذكاء الاصطناعي يفتقر حتى الآن إلى العمق المعرفي اللازم لفهم التاريخ المتقدم.

وأوضحت أن النماذج الحالية قد تكون جيدة في تقديم حقائق بسيطة، لكنها تفشل عندما يتعلق الأمر بالأسئلة الدقيقة التي تتطلب معرفة تفصيلية.

أمثلة على الأخطاء الشائعة

ومن بين الأخطاء التي رصدها الباحثون، عندما تم سؤال GPT-4 Turbo عن وجود الدروع المدرعة خلال فترة معينة في مصر القديمة.

فقد أعطى إجابة خاطئة، مدعيًا وجودها قبل 1500 عام من ظهورها الفعلي.

كما أخطأ النموذج في الإجابة عن سؤال حول وجود جيش محترف في مصر القديمة خلال حقبة زمنية معينة، مشيرًا إلى وجوده رغم أن الحقيقة التاريخية تثبت عكس ذلك.

لماذا يخطئ الذكاء الاصطناعي؟

وفقًا للدراسة، تعود هذه الأخطاء إلى ميل النماذج إلى التركيز على البيانات البارزة والشائعة، مما يجعلها أقل قدرة على استرجاع المعلومات التاريخية الدقيقة أو النادرة.

فعلى سبيل المثال، عندما يحتوي التدريب على مئات الأمثلة من حقائق معروفة عن إمبراطوريات كبرى مثل فارس، ولكنه يفتقر إلى تفاصيل دقيقة عن مناطق مثل إفريقيا جنوب الصحراء، يتضح القصور في المعلومات.

وعلى الرغم من هذه التحديات، يظل الأمل قائمًا بأن تساهم النماذج اللغوية في دعم الباحثين التاريخيين في المستقبل.

ويعمل فريق الدراسة حاليًا على تحسين معايير الاختبار لتشمل بيانات أكثر شمولًا وأسئلة أكثر تعقيدًا، مع التركيز على المناطق التي تعاني من نقص التمثيل في البيانات التاريخية.

وقد أشار الباحث الرئيسي في الدراسة -بيتر تورتشين- إلى أن هذه النماذج لن تحل محل المؤرخين في المستقبل القريب، لكنها قد تصبح أدوات مساعدة قيمة بمجرد معالجة نقاط ضعفها الحالية.