قمت باختبار أفضل نماذج الذكاء الاصطناعي في الألغاز الرياضية و إليك النتيجة

هل تتفوق جميع نماذج الذكاء الاصطناعي في حل الألغاز الرياضية؟

يشهد عالمنا تطوراً مذهلاً في مجال الذكاء الاصطناعي، حيث تظهر نماذج جديدة تُذهلنا بقدراتها الفائقة. ولكن هل وصلت هذه النماذج إلى مرحلة التفوق في مجال يتطلب ذكاءً منطقياً مثل حل الألغاز الرياضية؟ في هذه المقالة، سنخوض في غمار مقارنة شاملة بين أشهر نماذج الذكاء الاصطناعي، بما فيها عمالقة مثل GPT-4o mini، و Gemini 1.5 Flash، و Claude 3.5 Haiku، و الوافد الجديد Llama 3.1 70B، لنكتشف أيُّها يتفوق في فك شفرات الألغاز الرياضية المعقدة.

كان هدف المقالة في البداية هو إجراء مقارنة في جميع المهام مثل الألغاز الرياضية، وتصنيف التذاكر، والإستدلال اللفظي، بالإضافة إلى مقارنة التكلفة والسرعة.

و لكن نظراً لأن ذلك سيجعل المقال طويل جدا، فقد قررت الإكتفاء بمقارنة النماذج في الألغاز الرياضيات و المسائل المعقدة في هذه المقال، على أن نتناول المقارنة في باقي المهام في مقالات لاحقة.

طريقة و معايير الحكم على كل نموذج

سنقوم بتقسيم تقييم كل معيار إلى جزئين

تناول الدراسات التي تم نشرها عن كل نموذج
سأقوم بمشاركة التجربة الشخصية، لذا من المهم التأكيد عن كونها تجربة شخصية بهدف المشاركة و التحفيز للقارئ على تجربة مختلف نماذج الذكاء الاصطناعي.

الجدير بالذكر أنَّ التجربة الشخصية ستكون باللغة العربية، و بالتالي فهي لن تكشف عن قدرة النموذج في حل الألغاز الرياضية و حسب، بل و في مدى قدرته على فهم النص العربي أيضًا.

و لكن قبل البدء، دعنا نتعرف على طريقة الوصول لاستخدام كل نموذج خلال هذه المقارنة.

الوصول إلى نماذج الذكاء الاصطناعي المختلفة

١. استخدام GPT-4o mini: و ذلك بالذهاب إلى واجهة استخدام النموذج من خلال هذا الرابط، حيث يمكنك استخدام النموذج مجانًا.

تعرف أكثر على نموذج الذكاء الاصطناعي GPT-4o mini

٢. استخدام Gemini 1.5 Flash: عن طريق الذهاب إلى AI Studio، و اختيار النموذج من الإعدادات.

تعرف على كيفية استخدام Gemini 1.5 Flash و طريقة الوصول المجاني

٣. Claude 3.5 Haiku: و ذلك بالذهاب إلى واجهة النموذج في Claude AI

٤. Llama-3.1 70B: و نظرا لأنه نموذج مفتوح المصدر، فحتى يتم اختباره جَيِّداً فإننا سوف نستحدم موقعيين مختلفين

موقع Groq : اطلع على استخدام Llama 3.1 في موقع Groq
نموذج Llama 3.1 في موقع AIConvert

و الأن فلنقوم بالبدأ في اختبار كل نموذج في كل معيار (مهمة).

المقارنة بين نماذج الذكاء الاصطناعي في الألغاز الرياضية

الألغاز الرياضية هي مسائل تحتاج إلى استخدام المهارات الحسابية والمنطقية لحلها. هذه الألغاز تُستخدم لاختبار قدرة النماذج على التعامل مع الحسابات المعقدة وحل المشكلات بطريقة صحيحة.

أولا: التحليلات و التقارير

وفقًا للدراسات و التقارير يمكن تلخيص نتائج المقارنة كما يلي:

GPT-4o mini حقق 86% من الدقة في حل الألغاز الرياضية، يليه Gemini 1.5 Flash بـ71%، ثم Llama 3.1 70B بـ64%. كان أداء Claude 3.5 Haiku ضعيفًا في هذه المهمة بنسبة دقة 29%.

جدول: مقارنة النماذج في الألغاز الرياضية.

مقارنة دقة النماذج GPT-4o mini و Gemini 1.5 Flash و Llama 3.1 70B و Claude 3.5 Haiku

ثانيا: دعونا الآن ننتقل إلى التجربة الشخصية

سأقوم أَوَّلاً بإرسال لغز رياضي متوسط الصعوبة إلى كل نموذج.

اللغز الأول

اللغز هو: إذا كان لديك ثلاثة صناديق، كل منها يحتوي على كرات باللونين الأحمر والأزرق. الصندوق الأول يحتوي على 3 كرات حمراء و4 كرات زرقاء، الصندوق الثاني يحتوي على 5 كرات حمراء و2 كرات زرقاء، والصندوق الثالث يحتوي على 4 كرات حمراء و3 كرات زرقاء. إذا سحبت كرة عشوائية من أي صندوق، ما هي احتمالية أن تكون الكرة التي تسحبها حمراء إذا كانت الصناديق متساوية الاحتمال في السحب منها؟

و الإجابة الصحيحة هي: 4/7 أو 57.14

الآن فلنبدأ بإرسال هذا اللغز إلى كل نموذج

1. GPT-4o mini

كما ترون بالصورة، كانت الإجابة ممتازة، مع شرح بالتفصيل.
التقييم: ممتاز

2. Claude 3.5 Haiku

نموذج Claude 3.5 Haiku يقدم إجابة على لغز رياضي

كذلك قام النموذج بالإجابة الصحيحة، مع شرح ممتاز و إعطاء النتيجة في صورة كسر و نسبة مئوية و رقم.
التقييم: ممتاز

3. Gemini 1.5 Flash

الإجابة صحيحة و شرح مشابه لنموذج جي بي تي
التقييم: ممتاز

4. Llama 3.1 70B

أ. النموذج في موقع Groq :

نموذج Llama 3.1 70B يحل لغز رياضي على موقع Groq

قام النموذج بالإجابة الصحيحة، مع الشرح و لكن باختصار أقل قَليلاً من GPT-4o mini
التقييم: ممتاز

تحدث مع الذكاء الاصطناعي صوتيًا مجانًا باستخدام منصة Groq

ب. النموذج في موقع AIConvert

نموذج Llama 3.1 70B يحل لغز رياضي على موقع AIConvert

الإجابة صحيحة
التقييم: ممتاز

النتيجة النهائية – ترتيب النماذج في هذا الاختبار

١. في اعطاء النتيجة بمختلف الاشكال: أظهر Claude 3.5 Haiku تفوقا في هذا الأمر، حيث قام إعطاء النتيجة في شكل كسر (4/7)، و أيضا في شكل نتيجة 0.5714، و أخيرًا في شكل نسبة مئوية 57.14%

٢. في الشرح، أظهرت جميع النماذج -باستثناء نموذج لاما في Groq- إِمْتيازاً واضِحاً في طريقة التفكير و شرح طريقة الوصول إلى حل اللغز.

اللغز الثان

دعنا الآن ننتقل إلى لغز أكثر صعوبة.

تم أخذ هذا اللغز الرياضي من موقع hitbullseye و ترجمته بالعربية، يمكنك الاطلاع علي اللغز بالنقر على اسم الموقع الموضح.

اللغز هو: بعد أن تقطعت به السُّبُل على جزيرة مهجورة، لم يتبق لدى محمد سوى حاوية سعة 40 لترًا من الحليب. وللحفاظ على حليبه، قرر أنه سيشرب لترًا واحدًا من الحليب في اليوم الأول ثم يعيد ملء الوعاء بالماء مرة أخرى. في اليوم الثاني سوف يشرب 2 لتر ويعيد ملء الوعاء. في اليوم الثالث سيشرب 3 لترات وهكذا… بحلول الوقت الذي ينفذ فيه كل الحليب، ما هي كمية الماء التي شربها؟

و قبل أن نبدأ في الإختبار مع نماذج الذكاء الاصطناعي، فإن الاجابة الصحيحة طبقًا للموقع هي:

علماً أن الرجل لديه وعاء من الحليب سعة 40 لتراً. كما أنه يشرب في اليوم الأول لترًا واحدًا ويعيد ملء الإناء بالماء، ويشرب في اليوم الثاني 2 لترًا ويعيد ملء الإناء، ويشرب 3 لترات في اليوم الثالث ويعيد ملء الإناء، وهكذا حتى اليوم الأربعين . وهكذا في نهاية الأربعين يوماً يجب أن يكون قد شرب (1 + 2 + 3 + 4 + ….. +38 + 39 + 40) = 820 لتراً من السوائل. ومن بين تلك الـ 820 لترًا، كان 40 لترًا هو الحليب الذي تناوله في البداية. ومن ثم، فلا بد أَنَّهُ شرب 780 لترًا من الماء.

الآن فلنبدأ بإرسال هذا اللغز إلى كل نموذج، و مشاهدة النتيجة

1. GPT-4o mini

كانت الإجابة خاطئة تمامًا كما ترون بالصورة التالية، حيث كانت إجابة النموذج النهائية هي:

«كمية الماء التي شربها محمد هي 20.5 لترًا»، و هى بعيدة تمامًا عن الإجابة الصحيحة.

2. Claude 3.5 Haiku

كانت أيضًا الإجابة خاطئة تمامًا كما بالصورة التالية، حيث كانت إجابة النموذج النهائية هي:

«بحلول الوقت الذي ينفد فيه كل الحليب، يكون محمد قد شرب 84 لترًا من الماء».

نموذج Claude 3.5 Haiku يخطئ في حل لغز رياضي

3. Gemini 1.5 Flash

أَيْضاً كانت إجابة النموذج النهائية خاطئة كما بالصورة التالية، حيث كانت الإجابة النهائية هي:

«بحلول الوقت الذي نفذ فيه كل الحليب، شرب محمد 33 لترًا من الماء».

نموذج Gemini 1.5 Flash يخطئ في حل لغز رياضي

4. Llama 3.1 70B

أجاب نموذج Llama-3.1 70B المتوافر على موقع Groq بإجابة خاطئة: «شرب محمد 36 لترًا من الماء».

و أَخيراً كانت الإجابة الصائبة مع نموذج لاما في AIConvert

حيث أجاب بالإجابة الصحيحة كما هو موضح بالصورة التالية. و كانت إجابته النهائية هي: «محمد سيشرب 780 لتراً من الماء».

نموذج Llama 3.1 70B يخطئ في حل اللغز الرياضي الثاني على موقع Groq

النتيجة النهائية – ترتيب النماذج في هذا اللغز

تفوق Llama-3.1 70B في حل هذا اللغز على جميع النماذج بامتياز، حيث أجابت جميع النماذج الأخرى بإجابات خاطئة.

تجدر الإشارة إلى أن هذه التجربة الشخصية محدودة وتعتمد على عدد قليل من الألغاز، وبالتالي لا يمكن الاعتماد عليها بشكل قطعي للحكم على أفضلية نموذج ذكاء اصطناعي على آخر.

الذكاء الاصطناعي و الألغاز الرياضية: مستقبل واعد

بعد هذه الجولة في عالم الألغاز الرياضية من خلال عدسة الذكاء الاصطناعي، يتضح لنا أن هذه النماذج لا تزال في مرحلة التطور، ولكنها تُظهر إمكانات هائلة في مجال حل المشكلات الرياضية المعقدة. ونستطيع القول بأن المستقبل يحمل الكثير من المفاجآت المُذهلة في هذا المجال.

مقارنة بين نماذج الذكاء الاصطناعي Llama 3.1 و GPT-4o و Claude 3.5 و Gemini1.5 Flash في حل المسائل و الألغاز الرياضية

هل تتفوق جميع نماذج الذكاء الاصطناعي في حل الألغاز الرياضية؟

طريقة و معايير الحكم على كل نموذج

الوصول إلى نماذج الذكاء الاصطناعي المختلفة

المقارنة بين نماذج الذكاء الاصطناعي في الألغاز الرياضية

أولا: التحليلات و التقارير

ثانيا: دعونا الآن ننتقل إلى التجربة الشخصية

اللغز الأول

1. GPT-4o mini

2. Claude 3.5 Haiku

3. Gemini 1.5 Flash

4. Llama 3.1 70B

النتيجة النهائية – ترتيب النماذج في هذا الاختبار

اللغز الثان

1. GPT-4o mini

2. Claude 3.5 Haiku

3. Gemini 1.5 Flash

4. Llama 3.1 70B

النتيجة النهائية – ترتيب النماذج في هذا اللغز

الذكاء الاصطناعي و الألغاز الرياضية: مستقبل واعد

مقالات ذات صلة

كل ما تحتاج معرفته عن GPT-5.2: هل يستحق الترقية من ChatGPT المجاني؟

جوجل تُطلق Nano Banana Pro رسمياً: أداة الصور بالذكاء الاصطناعي تصل بقدرات احترافية غير مسبوقة

جوجل تُطلق Gemini 3 رسمياً: النموذج الأذكى يصل أخيراً بقدرات غير مسبوقة

15 برومبت جاهز لتحويل صورك إلى مشاهد شتوية ساحرة

التعليقات

لا توجد تعليقات بعد