خطأ مُثير للدهشة! لماذا يفشل الذكاء الاصطناعي في عد و حساب الحروف؟

حدثت ضجةٌ خلال اليومَين الأخيرَين على منصة التواصل الاجتماعي «إكس» (X)، وذلك حينما نشر أحدُ الأشخاصِ لقطةَ شاشةٍ لدردشةٍ له مع نموذج الذكاء الاصطناعي الأشهر حاليًا «GPT».

ويظهر بلقطةِ الشاشةِ سؤالهُ الموجَّه لـ GPT-4o: ما هو عددُ حرف «R» في كلمة «Strawberry»؟

حيث أجاب «جي بي تي» بالجوابِ الذي صدمَ الجميعَ في مثلِ هذا السؤالِ السهلِ، وكان جوابُه «عددُ الحروفِ هو 2».

و للمفارقة تم استخدام كلمة «Strawberry» و هي اسم المشروع السري من اوبن إيه آي (OpenAI) الذي لم يظهر للعلن بعد.

حازت هذه التغريدة على اهتمام كبير، حيث شاهدها أكثر من 30 مليون شخص، وأثارت ردود فعل تتراوح بين السخرية والدهشة.

oh pic.twitter.com/K2Lr9iVkjQ— Rob DenBleyker (@RobDenBleyker) August 26, 2024

لكن السؤال الذي يستحق التفكير هنا هو: كيف يمكن لنموذج متقدم مثل «ChatGPT» أن يخطئ في سؤال بسيط يمكن لطفل صغير الإجابة عليه؟ و ما هي أسباب أخطاء الذكاء الاصطناعي في عد الحروف داخل الكلمات؟

و هل برغم ما نشاهده يوميًا من تقدم و قفزات في قدرات الخوارزميات الذكية و معالجة اللغة الطبيعية، إلا أنه ما زال لا يمكن الإعتماد عليه بشكل مطلق؟

تجربة عملية لاكتشاف أخطاء الذكاء الاصطناعي في عد الحروف

نموذج التجربة Gemini 1.5 Experimental

في سياق تجربة مشابهة، قررت التحدث مع نموذج آخر قوي يُدعى «Gemini 1.5 Experimental»، والذي قد يكون الكثيرون قد سمعوا عنه أو جربوه من قبل، و هو النموذج الأحدث من جوجل، و الذي تحدثنا عنه من قبل.

حاليًا، يحتل هذا النموذج المرتبة الثانية في اختبارات أقوى النماذج على منصة LMSYS chatbot arena. و ذلك بفارق ضئيل عن صاحب المرتبة الأولى ChatGPT-4o-latest.

جدول تصنيف لأقوى نماذج الذكاء الاصطناعي على منصة LMSYS chatbot arena

تعرف أكثر على Gemini 1.5 Experimental.

اقرأ أيضًا كيف تستخدم Gemini مجانًا.

بدء الاختبار

سأبدأ في طرح السؤال عليه بالانجليزية، كما تشاهدون بالصور القادمة.
و سأقوم بالترجمة هنا.
ملحوظة: الردود التي سأكتبها ليست ترجمة حرفية، بل ملخص. شاهد الصور لمشاهدة الرد الفعلي.
عند طرح نفس السؤال موضع اللغط عليه
«ما هو عدد حرف R في كلمة «Strawberry»؟
كانت الإجابة أسوأ من إجابة ChatGPT،
حيث كانت النتيجة»هناك حرف R واحد في كلمة Strawberry»!

شاشة توضح فشل الذكاء الاصطناعي في تحديد عدد حروف "R" بشكل صحيح في كلمة "Strawberry" — حسنًا، فلنكمل و نفهم لماذا توصل لهذه النتيجة الخاطئة! لذا قمت بسؤاله «كيفَ قُمتَ بعدَّها؟» ملخص الجواب: «نظرت إلى الكلمة و وجدت أن هناك حرف «R» واحد. إنها عملية مباشرة و سهلة، و كأنه فحص بالنظر لتدرك وجود الحرف».

حسنًا، فلنكمل و نفهم لماذا توصل لهذه النتيجة الخاطئة!

لذا قمت بسؤاله «كيفَ قُمتَ بعدَّها؟»
ملخص الجواب: «نظرت إلى الكلمة و وجدت أن هناك حرف «R» واحد. إنها عملية مباشرة و سهلة، و كأنه فحص بالنظر لتدرك وجود الحرف».
لقطة شاشة توضح طريقة عد الحروف بواسطة نماذج الذكاء الاصطناعي

لقطة شاشة توضح طريقة عد الحروف بواسطة نماذج الذكاء الاصطناعي

لِلَفْتِ انتباهه إلى هذا الخطأ، قلت له: «أعتقد أن هناك أكثر من حرف R في هذه الكلمة!.

و هنا انتبه Gemini أنه أخطأ بالعد، قائلا «أنت محق، أعتذر. يبدو أنني أخطأت. هناك بالفعل حرفان «R» في كلمة «Strawberry «.

لقطة شاشة تُظهر اعتراف Gemini بالخطأ في إحصاء الحروف بالكلمات، و ارتكاب خطأ آخر بعدم الوصول للجواب الصحيح بعد

إِذًۭا، انتهى النموذج هذه المرة إلى نفس الإجابة الخاطئة التي قدمها GPT-4o، والتي أثارت كل هذه الضجة.

فلنحاول معرفة سبب هذه الإجابة الخاطئة الجديدة، رغم انتباهه للخطأ.

«كيف قمت بإحصاء عدد الحروف بالكلمة؟«
و هذه كانت طريقته في الحساب طبقا لرده
«قمت بالآتي
١. الفحص المرئي: حيث نظرت إلى كل حرف في الكلمة من الشمال إلى اليمين».
٢. التعرف: قمت تحديدا بالنظر إلى حرف «R» سواء كان حرفا صغيرا «r» أو كبيرا.
٣. وجدت حرف «R» الأول في الجزأ من الكلمة «straw
٤. أما الحرف الثاني فكان في جزأ الكلمة «berry». لذا حسابي النهائى هو «حرفين».

تفسير طريقة الذكاء الاصطناعي في حساب الحروف بالكلمات باستخدام مثال كلمة Strawberry — هنا وضحت لي أين تكمن المشكلة التي تسببت في حسابه الخاطئ. إنها خاصة بالشق الثاني من كلمة «Strawberry» و هو «berry»، حيث اعتبر أنها تحتوي على حرف «R» واحد. «هل أنت متأكد أن berry تحتوي على حرف «R» واحد؟ سألته بغرض أن ينتبه لهذا الأمر.

هنا وضحت لي أين تكمن المشكلة التي تسببت في حسابه الخاطئ.

إنها خاصة بالشق الثاني من كلمة «Strawberry» و هو «berry»، حيث اعتبر أنها تحتوي على حرف «R» واحد.
«هل أنت متأكد أن berry تحتوي على حرف «R» واحد؟ سألته بغرض أن ينتبه لهذا الأمر.
و هنا بدأت بعض هلاوس النموذج.
«أنت بالفعل محق أن تسأل هذا. في حين أن كلمة «berry» تبدو وكأنها تحتوي على حرفين «R»، إلا أنها في الواقع مكتوبة بحرف «R» واحد فقط».

هلوسات و أخطاء الذكاء الاصطناعي في تحليل النصوص — وهنا سأكتفي معه بهذه الدردشة، فلا داعي للمزيد من المواصلة. لقد كرر Gemini نفس الخط الذي وقع به GPT-4o. و السؤال هنا،

وهنا سأكتفي معه بهذه الدردشة، فلا داعي للمزيد من المواصلة.

لقد كرر Gemini نفس الخط الذي وقع به GPT-4o.
و السؤال هنا، لماذا تخطأ خوارزميات الذكاء الاصطناعي في عد الحروف بالكلمات و تحليل النصوص بطريقة صحيحة؟

سنحاول شرح الأمر بطريقة مبسطة، و أنصحك بالاطلاع فيما بعد على هذا الشرح لمفاهيم الذكاء الاصطناعي، و ذلك لكي تتعرف أكثر على طريقة عمل الخوارزميات الذكية.

أسباب فشل و أخطاء الذكاء الاصطناعي في حساب الحروف

أصبحت نماذج ال AI تُستخدم بشكل متزايد في العديد من المجالات، بما في ذلك معالجة اللغة الطبيعية. ومع قدرتها على فهم وتحليل النصوص، إلا أنها لا تزال تواجه بعض التحديات، منها الوقوع في أخطاء عند عدّ الحروف في الكلمات. فما هي الأسباب وراء هذه الأخطاء؟

من أبرز أسباب خطأ النماذج في عملية حساب الحروف بطريقة صحيحة هو

الترميز Tokenization
التشفير Encoding

و لكن من المهم أيضًا التعرف على جميع الاسباب المحتملة.

التشابه الصوتي، و التعلم من الأنماط الصوتية

جزء من البيانات التي يتعلم منها الذكاء الاصطناعي يتضمن معلومات حول كيفية نطق الكلمات.

و هذا يساعده على فهم العلاقة بين الكلمات المكتوبة والمنطوقة.

ومع ذلك، يمكن أن يؤدي ذلك إلى الاعتماد على الأنماط الصوتية بشكل أكبر من اللازم، مما يجعله قد يقع في خطأ عد الحروف في الكلمات التي تُنطق بشكل مختلف عن كتابتها، مثل كلمة «berry».

حيث تعتمد بعض النماذج على تحليل الأصوات لتفسير الكلمات، مما قد يؤدي إلى الخلط بين الكلمات المتشابهة صوتياً والتي تختلف في عدد حروفها.

على سبيل المثال، قد يخطئ النموذج في عدّ حرف «ر» في كلمة «بيري» (berry) بسبب التشابه الصوتي مع كلمات أخرى مثل «هاري» (Harry).

التدريب على البيانات النصية الضخمة

حيث يتم تدريب نماذج الذكاء الاصطناعي على كميات هائلة من البيانات النصية، والتي قد تحتوي على أخطاء إملائية أو استخدامات غير قياسية للغة.

هذا التعرض للأخطاء من الممكن أن يؤدي إلى تعلم النموذج أنماط خاطئة في عدّ الحروف، مثل عدم احتساب حرف R مُكرر في كلمة مثل «Strawberry» إذا كانت البيانات تحتوي على أمثلة خاطئة مشابهة.

قواعد اللغة المعقدة

تختلف قواعد اللغة من لغة إلى أخرى، وتحتوي بعض اللغات على قواعد نطق وكتابة معقدة. قد يواجه الذكاء الاصطناعي صعوبة في فهم هذه القواعد وتطبيقها بشكل صحيح عند عدّ الحروف.

على سبيل المثال، من المحتمل أن تُؤدي قواعد نطق مُعينة في اللغة الإنجليزية إلى عدم احتساب حرف «R» المُكرر في كلمة «Strawberry» كما ينبغي.

تقنية تحويل النص إلى رموز (Tokenization) – السبب الأبرز

تقوم نماذج اللغة بتحويل النصوص إلى وحدات أصغر تسمى «رموزًا» (Tokens) حتى يتمكن الكمبيوتر من فهمها، والتي قد تكون كلمات كاملة أو أجزاء من الكلمات أو حتى حروفًا مفردة.

تركز هذه العملية على فهم المعنى العام للنص وليس بالضرورة على التفاصيل الدقيقة لكل حرف. وبالتالي، قد يُغفل النموذج بعض الحروف أثناء عدّها.

تخيل أنك تحاول فهم قصة طويلة مكتوبة بلغة لا تعرفها. بدلاً من محاولة فهم كل حرف على حدة، قد تُقسم القصة إلى جمل أو عبارات أو حتى كلمات مفردة لتحاول فهم المعنى العام.

هذا ما تفعله تقنية تحويل النص إلى رموز (Tokenization) في معالجة اللغة الطبيعية.

مثال:

الجملة: «القطة تجلس على الطاولة»

يمكن تقسيمها إلى الرموز التالية:

«القطة»

«تجلس»

«على»

«الطاولة»

تركز هذه العملية على فهم المعنى العام للجملة، وليس بالضرورة على كل حرف على حدة.

مثلًا، قد يفهم النموذج أن الجملة تتحدث عن قطة تجلس على طاولة، دون الاهتمام بعدد حروف كلمة «قطة» أو «طاولة».

ولهذا، قد لا يُلاحظ النموذج وجود حرف R مكرر في كلمة «Strawberry» بسبب تركيزه على معنى الكلمة ككل.

التشفير (Encoding):

عملية التشفير تُحوّل الرموز إلى تمثيلات رقمية (Encoding) تُركز على معنى الكلمات وعلاقتها ببعضها، لكي يتمكن النموذج من معالجتها.

هذه التمثيلات تركز على المعنى و العلاقات بين الكلمات، وقد لا تحتفظ بمعلومات مفصلة عن تسلسل الحروف الفردية.

تخيل مثلا أن لديك مجموعة من قطع الدومينو، كل قطعة تمثل كلمة. عملية التشفير تشبه تحويل هذه القطع إلى أرقام تُمثل حجمها ولونها وطريقة ربطها ببعضها.

بهذه الطريقة، يستطيع الكمبيوتر فهم كيفية ترتيب الكلمات وبناء جمل مفهومة، لكن قد لا يهتم بتفاصيل كل قطعة على حدة مثل عدد النُتوءات الصغيرة عليها (التي تُشبه الحروف في الكلمات).

بمعنى آخر:

يتم تحويل الكلمات إلى رموز رقمية يفهمها الكمبيوتر. هذه الرموز تُركز على معنى الكلمات وكيفية ربطها ببعضها لبناء جمل ذات معنى، لكنها قد لا تُركز على تفاصيل تركيب كل كلمة من حروف.

مثلًا، قد يفهم الكمبيوتر معنى جملة «القطة تجلس على الطاولة» دون الاهتمام بعدد حروف كلمة «قطة» أو «طاولة».

بنية المحولات (Transformer Architecture):

تعتبر بنية المحولات (Transformers) من أكثر البنى شيوعًا في نماذج اللغة الكبيرة، وهي تُركز على فهم السياق و إنشاء نصوص طبيعية. ومع ذلك، قد يُغفل هذا التركيز على المعنى بعض التفاصيل الدقيقة مثل عدد الحروف في الكلمة.

في الختام، و على الرغم من التقدم الكبير في مجال الذكاء الاصطناعي، لا تزال نماذج اللغة تواجه صعوبة في عد الحروف بالكلمات بدقة.

يعود ذلك إلى عدة عوامل، منها التشابه الصوتي، التدريب على كميات ضخمة من البيانات، وتعقيد قواعد اللغة. كما تلعب قيود التقنيات المستخدمة في معالجة اللغة، مثل تقسيم النص إلى رموز والتشفير وبنية المحولات، دورًا في هذه الصعوبة. مع استمرار البحث والتطوير، من المتوقع أن تتحسن دقة هذه النماذج في المستقبل.