دليل مواقع وأدوات و تطبيقات الذكاء الاصطناعي

أخطاء عن مصر القديمة! هل يفهم الذكاء الاصطناعي التاريخ حقًا؟

قد تكون تقنيات الذكاء الاصطناعي قد أثبتت جدارتها في العديد من المهام مثل البرمجة و إنشاء المحتوى الصوتي، لكنها ما زالت تواجه تحديات كبيرة في فهم التاريخ العميق والمعقد.

دراسة حديثة سلطت الضوء على هذه النقطة، حيث أظهرت أن النماذج اللغوية الكبيرة (LLMs) مثل GPT-4 من OpenAI وGemini من Google وLlama من Meta تعاني عند التعامل مع أسئلة تاريخية متقدمة.

وفي محاولة لفهم حدود هذه النماذج، ابتكر فريق من الباحثين معيارًا جديدًا باسم "Hist-LLM" لتقييم قدرتها على الإجابة عن أسئلة تاريخية معقدة.

استند المعيار إلى قاعدة بيانات "Seshat Global History Databank"، وهي واحدة من أكثر قواعد البيانات التاريخية شمولًا.

وأظهرت النتائج -التي عُرضت في مؤتمر NeurIPS للذكاء الاصطناعي- أن أفضل النماذج، مثل GPT-4 Turbo، حققت دقة تبلغ حوالي 46% فقط.

هذه النسبة تتعلق بالاختبار رباعي الخيارات (أربع اختيارات لكل إجابة)، وهي أعلى من التخمين العشوائي (25%) ولكن لا تزال بعيدة عن مستوى الخبراء.

تفاوت الأداء بين نماذج الذكاء الاصطناعي

جدول مقارنة أداء 7 نماذج ذكاء اصطناعي في اختبارات التاريخ متعددة وثنائية الخيارات، وفقًا لمعيار Hist-LLM
نتائج دقة نماذج الذكاء الاصطناعي في اختبارات التاريخ وفقًا لمعيار Hist-LLM (في حالة اختيارين أو أربعة لكل إجابة).

أظهرت النتائج أيضًا أن أداء النماذج يتفاوت بناءً على حجمها وبيانات تدريبها.

وحقق GPT-4o أفضل أداء في الاختبارات ذات الخيارات الثنائية بدقة 63.2%، بينما كان Llama-3.1-8B هو الأضعف بين النماذج.

دعونا أيضًا نلقي شاملة على تقييم النماذج عند وجود خيارين فقط للإجابة.

في هذه الحالة تكون نسبة التخمين العشوائي هي 50%.

بينما متوسط أداء النماذج بشكل عام كما نرى بالجدول، في حدود 60%. 

لذلك، وعلى الرغم من تفوق النماذج الأكبر حجمًا مثل GPT-4 على نظيراتها الأصغر، فإن الأداء العام ما زال بعيدًا عن مستوى الخبراء البشريين.

أداء ضعيف في السياقات التاريخية الدقيقة

أشارت الباحثة ماريا ديل ريو-تشانونا من جامعة كوليدج لندن بأن هذه النتائج تؤكد أن الذكاء الاصطناعي يفتقر حتى الآن إلى العمق المعرفي اللازم لفهم التاريخ المتقدم.

وأوضحت أن النماذج الحالية قد تكون جيدة في تقديم حقائق بسيطة، لكنها تفشل عندما يتعلق الأمر بالأسئلة الدقيقة التي تتطلب معرفة تفصيلية.

أمثلة على الأخطاء الشائعة

ومن بين الأخطاء التي رصدها الباحثون، عندما تم سؤال GPT-4 Turbo عن وجود الدروع المدرعة خلال فترة معينة في مصر القديمة.

فقد أعطى إجابة خاطئة، مدعيًا وجودها قبل 1500 عام من ظهورها الفعلي.

كما أخطأ النموذج في الإجابة عن سؤال حول وجود جيش محترف في مصر القديمة خلال حقبة زمنية معينة، مشيرًا إلى وجوده رغم أن الحقيقة التاريخية تثبت عكس ذلك.

لماذا يخطئ الذكاء الاصطناعي؟

وفقًا للدراسة، تعود هذه الأخطاء إلى ميل النماذج إلى التركيز على البيانات البارزة والشائعة، مما يجعلها أقل قدرة على استرجاع المعلومات التاريخية الدقيقة أو النادرة.

فعلى سبيل المثال، عندما يحتوي التدريب على مئات الأمثلة من حقائق معروفة عن إمبراطوريات كبرى مثل فارس، ولكنه يفتقر إلى تفاصيل دقيقة عن مناطق مثل إفريقيا جنوب الصحراء، يتضح القصور في المعلومات.

اقرأ أيضًا: كيف يخدعنا الذكاء الاصطناعي بإجابات مقنعة؟

وعلى الرغم من هذه التحديات، يظل الأمل قائمًا بأن تساهم النماذج اللغوية في دعم الباحثين التاريخيين في المستقبل.

ويعمل فريق الدراسة حاليًا على تحسين معايير الاختبار لتشمل بيانات أكثر شمولًا وأسئلة أكثر تعقيدًا، مع التركيز على المناطق التي تعاني من نقص التمثيل في البيانات التاريخية.

وقد أشار الباحث الرئيسي في الدراسة -بيتر تورتشين- إلى أن هذه النماذج لن تحل محل المؤرخين في المستقبل القريب، لكنها قد تصبح أدوات مساعدة قيمة بمجرد معالجة نقاط ضعفها الحالية.

Related Posts

Huginn-3.5B: نموذج جديد يغير شكل صناعة الذكاء الاصطناعي
  • فبراير 14, 2025

عند الحديث عن تحسين قدرة الذكاء الاصطناعي على الاستدلال، غالبًا ما يتجه الباحثون إلى زيادة حجم النموذج أو استخدام أساليب مثل…

ChatGPTو Gemini يشوهان الحقائق عند تلخيص الأخبار
  • فبراير 12, 2025

كشفت دراسة حديثة أجرتها هيئة الإذاعة البريطانية (BBC) عن أخطاء كبيرة ترتكبها أنظمة الذكاء الاصطناعي عند تلخيص الأخبار، ما يثير تساؤلات…

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

آخر المقالات

ارتفاع الهلوسة في نماذج OpenAI o3 و o4-mini الجديدة رغم تطورها المنطقي

ارتفاع الهلوسة في نماذج OpenAI o3 و o4-mini الجديدة رغم تطورها المنطقي

Google Veo 2: تصميم الفيديوهات بالذكاء الاصطناعي باللغة العربية

Google Veo 2: تصميم الفيديوهات بالذكاء الاصطناعي باللغة العربية

Google تطرح Gemini 2.5 Flash رسميًا: أول نموذج هجين لها للتحكم في التفكير

Google تطرح Gemini 2.5 Flash رسميًا: أول نموذج هجين لها للتحكم في التفكير

جروك يتطور: xAI تضيف أداة Studio وميزة الذاكرة الجديدة بشكل مجاني

جروك يتطور: xAI تضيف أداة Studio وميزة الذاكرة الجديدة بشكل مجاني