هل تتفوق جميع نماذج الذكاء الاصطناعي في حل الألغاز الرياضية؟
يشهد عالمنا تطوراً مذهلاً في مجال الذكاء الاصطناعي، حيث تظهر نماذج جديدة تُذهلنا بقدراتها الفائقة. ولكن هل وصلت هذه النماذج إلى مرحلة التفوق في مجال يتطلب ذكاءً منطقياً مثل حل الألغاز الرياضية؟ في هذه المقالة، سنخوض في غمار مقارنة شاملة بين أشهر نماذج الذكاء الاصطناعي، بما فيها عمالقة مثل GPT-4o mini، و Gemini 1.5 Flash، و Claude 3.5 Haiku، و الوافد الجديد Llama 3.1 70B، لنكتشف أيُّها يتفوق في فك شفرات الألغاز الرياضية المعقدة.
كان هدف المقالة في البداية هو إجراء مقارنة في جميع المهام مثل الألغاز الرياضية، وتصنيف التذاكر، والإستدلال اللفظي، بالإضافة إلى مقارنة التكلفة والسرعة.
و لكن نظراً لأن ذلك سيجعل المقال طويل جدا، فقد قررت الإكتفاء بمقارنة النماذج في الألغاز الرياضيات و المسائل المعقدة في هذه المقال، على أن نتناول المقارنة في باقي المهام في مقالات لاحقة.
طريقة و معايير الحكم على كل نموذج
سنقوم بتقسيم تقييم كل معيار إلى جزئين
- تناول الدراسات التي تم نشرها عن كل نموذج
- سأقوم بمشاركة التجربة الشخصية، لذا من المهم التأكيد عن كونها تجربة شخصية بهدف المشاركة و التحفيز للقارئ على تجربة مختلف نماذج الذكاء الاصطناعي.
الجدير بالذكر أنَّ التجربة الشخصية ستكون باللغة العربية، و بالتالي فهي لن تكشف عن قدرة النموذج في حل الألغاز الرياضية و حسب، بل و في مدى قدرته على فهم النص العربي أيضًا.
و لكن قبل البدء، دعنا نتعرف على طريقة الوصول لاستخدام كل نموذج خلال هذه المقارنة.
الوصول إلى نماذج الذكاء الاصطناعي المختلفة
١. استخدام GPT-4o mini: و ذلك بالذهاب إلى واجهة استخدام النموذج من خلال هذا الرابط، حيث يمكنك استخدام النموذج مجانًا.
تعرف أكثر على نموذج الذكاء الاصطناعي GPT-4o mini
٢. استخدام Gemini 1.5 Flash: عن طريق الذهاب إلى AI Studio، و اختيار النموذج من الإعدادات.
تعرف على كيفية استخدام Gemini 1.5 Flash و طريقة الوصول المجاني
٣. Claude 3.5 Haiku: و ذلك بالذهاب إلى واجهة النموذج في Claude AI
٤. Llama-3.1 70B: و نظرا لأنه نموذج مفتوح المصدر، فحتى يتم اختباره جَيِّداً فإننا سوف نستحدم موقعيين مختلفين
- موقع Groq : اطلع على استخدام Llama 3.1 في موقع Groq
- نموذج Llama 3.1 في موقع AIConvert
و الأن فلنقوم بالبدأ في اختبار كل نموذج في كل معيار (مهمة).
المقارنة بين نماذج الذكاء الاصطناعي في الألغاز الرياضية
الألغاز الرياضية هي مسائل تحتاج إلى استخدام المهارات الحسابية والمنطقية لحلها. هذه الألغاز تُستخدم لاختبار قدرة النماذج على التعامل مع الحسابات المعقدة وحل المشكلات بطريقة صحيحة.
أولا: التحليلات و التقارير
وفقًا للدراسات و التقارير يمكن تلخيص نتائج المقارنة كما يلي:
GPT-4o mini حقق 86% من الدقة في حل الألغاز الرياضية، يليه Gemini 1.5 Flash بـ71%، ثم Llama 3.1 70B بـ64%. كان أداء Claude 3.5 Haiku ضعيفًا في هذه المهمة بنسبة دقة 29%.
جدول: مقارنة النماذج في الألغاز الرياضية.
ثانيا: دعونا الآن ننتقل إلى التجربة الشخصية
سأقوم أَوَّلاً بإرسال لغز رياضي متوسط الصعوبة إلى كل نموذج.
اللغز الأول
اللغز هو: إذا كان لديك ثلاثة صناديق، كل منها يحتوي على كرات باللونين الأحمر والأزرق. الصندوق الأول يحتوي على 3 كرات حمراء و4 كرات زرقاء، الصندوق الثاني يحتوي على 5 كرات حمراء و2 كرات زرقاء، والصندوق الثالث يحتوي على 4 كرات حمراء و3 كرات زرقاء. إذا سحبت كرة عشوائية من أي صندوق، ما هي احتمالية أن تكون الكرة التي تسحبها حمراء إذا كانت الصناديق متساوية الاحتمال في السحب منها؟
و الإجابة الصحيحة هي: 4/7 أو 57.14
الآن فلنبدأ بإرسال هذا اللغز إلى كل نموذج
1. GPT-4o mini
- كما ترون بالصورة، كانت الإجابة ممتازة، مع شرح بالتفصيل.
- التقييم: ممتاز
2. Claude 3.5 Haiku
- كذلك قام النموذج بالإجابة الصحيحة، مع شرح ممتاز و إعطاء النتيجة في صورة كسر و نسبة مئوية و رقم.
- التقييم: ممتاز
3. Gemini 1.5 Flash
- الإجابة صحيحة و شرح مشابه لنموذج جي بي تي
- التقييم: ممتاز
4. Llama 3.1 70B
أ. النموذج في موقع Groq :
- قام النموذج بالإجابة الصحيحة، مع الشرح و لكن باختصار أقل قَليلاً من GPT-4o mini
- التقييم: ممتاز
تحدث مع الذكاء الاصطناعي صوتيًا مجانًا باستخدام منصة Groq
ب. النموذج في موقع AIConvert
- الإجابة صحيحة
- التقييم: ممتاز
النتيجة النهائية - ترتيب النماذج في هذا الاختبار
١. في اعطاء النتيجة بمختلف الاشكال: أظهر Claude 3.5 Haiku تفوقا في هذا الأمر، حيث قام إعطاء النتيجة في شكل كسر (4/7)، و أيضا في شكل نتيجة 0.5714، و أخيرًا في شكل نسبة مئوية 57.14%
٢. في الشرح، أظهرت جميع النماذج -باستثناء نموذج لاما في Groq- إِمْتيازاً واضِحاً في طريقة التفكير و شرح طريقة الوصول إلى حل اللغز.
اللغز الثان
دعنا الآن ننتقل إلى لغز أكثر صعوبة.
تم أخذ هذا اللغز الرياضي من موقع hitbullseye و ترجمته بالعربية، يمكنك الاطلاع علي اللغز بالنقر على اسم الموقع الموضح.
اللغز هو: بعد أن تقطعت به السُّبُل على جزيرة مهجورة، لم يتبق لدى محمد سوى حاوية سعة 40 لترًا من الحليب. وللحفاظ على حليبه، قرر أنه سيشرب لترًا واحدًا من الحليب في اليوم الأول ثم يعيد ملء الوعاء بالماء مرة أخرى. في اليوم الثاني سوف يشرب 2 لتر ويعيد ملء الوعاء. في اليوم الثالث سيشرب 3 لترات وهكذا... بحلول الوقت الذي ينفذ فيه كل الحليب، ما هي كمية الماء التي شربها؟
و قبل أن نبدأ في الإختبار مع نماذج الذكاء الاصطناعي، فإن الاجابة الصحيحة طبقًا للموقع هي:
علماً أن الرجل لديه وعاء من الحليب سعة 40 لتراً. كما أنه يشرب في اليوم الأول لترًا واحدًا ويعيد ملء الإناء بالماء، ويشرب في اليوم الثاني 2 لترًا ويعيد ملء الإناء، ويشرب 3 لترات في اليوم الثالث ويعيد ملء الإناء، وهكذا حتى اليوم الأربعين . وهكذا في نهاية الأربعين يوماً يجب أن يكون قد شرب (1 + 2 + 3 + 4 + ..... +38 + 39 + 40) = 820 لتراً من السوائل. ومن بين تلك الـ 820 لترًا، كان 40 لترًا هو الحليب الذي تناوله في البداية. ومن ثم، فلا بد أَنَّهُ شرب 780 لترًا من الماء.
الآن فلنبدأ بإرسال هذا اللغز إلى كل نموذج، و مشاهدة النتيجة
1. GPT-4o mini
كانت الإجابة خاطئة تمامًا كما ترون بالصورة التالية، حيث كانت إجابة النموذج النهائية هي:
"كمية الماء التي شربها محمد هي 20.5 لترًا"، و هى بعيدة تمامًا عن الإجابة الصحيحة.
2. Claude 3.5 Haiku
كانت أيضًا الإجابة خاطئة تمامًا كما بالصورة التالية، حيث كانت إجابة النموذج النهائية هي:
"بحلول الوقت الذي ينفد فيه كل الحليب، يكون محمد قد شرب 84 لترًا من الماء".
3. Gemini 1.5 Flash
أَيْضاً كانت إجابة النموذج النهائية خاطئة كما بالصورة التالية، حيث كانت الإجابة النهائية هي:
"بحلول الوقت الذي نفذ فيه كل الحليب، شرب محمد 33 لترًا من الماء".
4. Llama 3.1 70B
أجاب نموذج Llama-3.1 70B المتوافر على موقع Groq بإجابة خاطئة: "شرب محمد 36 لترًا من الماء".
و أَخيراً كانت الإجابة الصائبة مع نموذج لاما في AIConvert
حيث أجاب بالإجابة الصحيحة كما هو موضح بالصورة التالية. و كانت إجابته النهائية هي: "محمد سيشرب 780 لتراً من الماء".
النتيجة النهائية - ترتيب النماذج في هذا اللغز
تفوق Llama-3.1 70B في حل هذا اللغز على جميع النماذج بامتياز، حيث أجابت جميع النماذج الأخرى بإجابات خاطئة.
تجدر الإشارة إلى أن هذه التجربة الشخصية محدودة وتعتمد على عدد قليل من الألغاز، وبالتالي لا يمكن الاعتماد عليها بشكل قطعي للحكم على أفضلية نموذج ذكاء اصطناعي على آخر.
الذكاء الاصطناعي و الألغاز الرياضية: مستقبل واعد
بعد هذه الجولة في عالم الألغاز الرياضية من خلال عدسة الذكاء الاصطناعي، يتضح لنا أن هذه النماذج لا تزال في مرحلة التطور، ولكنها تُظهر إمكانات هائلة في مجال حل المشكلات الرياضية المعقدة. ونستطيع القول بأن المستقبل يحمل الكثير من المفاجآت المُذهلة في هذا المجال.