في دراسة أجراها فريق من جامعة ويسترن في كندا على أداء ChatGPT في تشخيص الحالات الطبية، لاحظوا أن روبوت الذكاء الاصطناعي يقدم إجابات مقنعة و قوية، و لكنها كانت خاطئة تمامًا.
كما أنني و على مدار الشهور الماضية، ومع كل تحديث أو إصدار أفضل في نماذج اللغة الكبيرة، أكتشف أحيانًا فجأة مثل هذا النمط.
حيث تعطيني نتائج تبدو صحيحة، و بالاستمرار في الحديث معهم أو مراجعة هذا المعلومات بالبحث المكثف، أجد أنها ما كانت إلا بيانات زائفة.
و مع تقدم هذه الأدوات وتطورها، تزداد احتمالية تقديمها لتعليقات غير دقيقة أو مضللة.
فكيف يمكن لتقنية متقدمة أن تفشل في تقديم الحقائق؟ هذه المشاعر هي ما يختبره الكثيرون عند التعامل مع هذه الآلات الذكية.
لماذا تكذب نماذج الذكاء الاصطناعي
مع بدايات تطوير النماذج الكبيرة مثل GPT-3، كانت النماذج تواجه صعوبة في الرد على أسئلة بسيطة تتعلق بالجغرافيا أو العلوم و حتى العمليات الحسابية الأساسية.
و إذا لم تكن تعرف الجواب، فإنها كانت تميل إلى الامتناع عن الرد.
و لكن كان هذا يمثل مشكلة، لأن النماذج تم تصميمها لتكون آلات تجيب على الأسئلة، والشركات مثل OpenAI كانت تسعى لتقديم برامج قادرة على التفاعل البشري بكفاءة.
الحل الأول الذي لجأت إليه الشركات كان زيادة حجم النماذج وتوسيع قاعدة البيانات التي يتم تدريبها عليها.
فعلى سبيل المثال، نموذج GPT-3 تم تدريبه باستخدام 45 تيرابايت من النصوص، واستخدم 175 مليار من المعاملات اللغوية (parameters).
ومع ذلك كان التكبير وحده غير كافٍ، فقد كانت الإجابات لا تزال تعاني من التضارب ولم تكن دائمًا دقيقة.
وفي محاولة لتجاوز هذه المشكلة، لجأت الشركات إلى تقنيات التعلم المعزز مع التغذية الراجعة البشرية.
حيث يعتمد هذا النوع من التعلم على تدريب النموذج من خلال مدرِّبين بشريين يقومون بتقييم ردوده، و اتخاذ قرارات بناءً على المكافآت والعقوبات، مع تحفيزه على تحسين ردوده من خلال تعليقاتهم.
كما يهدف إلى تحسين قدرة الأنظمة على فهم الأسئلة وتقديم استجابات واضحة و فعالة.
و هنا ظهرت أسباب لظاهرة "خداع الذكاء الاصطناعي"
١. المشكلة الأساسية في هذا النوع من التدريب هي أن الذكاء الاصطناعي لا يفهم سبب مكافأته على بعض الإجابات أو معاقبته على الأخرى.
فهو لا يفهم المعرفة كما يفعل البشر، بل يقوم بتحسين أدائه لتحقيق أقصى قدر من المكافأة وتجنب العقوبات.
و عندما يتم تعليم الألات على إعطاء أجوبة معينة، فإنها قد تجد أن تقديم إجابة خاطئة ولكن مقنعة يمكن أن يكون بنفس فعالية تقديم الجواب الصحيح في تحقيق الهدف المطلوب.
٢. البشر الذين يساهمون بهذا التدريب قد يفضلون التفسيرات التي تبدو واثقة، عن الردود التي تعترف النماذج فيها بجهلها.
و مع تشجيع الأدوات على تجنب الامتناع عن الرد، بدأت في الهلوسة بتقديم أي تفاصيل حتى لو كانت غير دقيقة.
فعلى سبيل المثال، قد يُفضّل المدرِّب استجابة غير دقيقة ولكن مُفصّلة عن مرض ما، على إجابة سليمة تقول ببساطة "لا أعرف".
و لذلك تتعلم هذه البرامج الذكية خداع المدرِّبين من خلال تقديم ردود تبدو مُقنعة، حتى لو كانت بعيدة عن الصحة. وهذا ما يفسر بشكل كبير لماذا تقدم لنا أحيانًا معلومات خاطئة بثقة عالية.
٣. أيضًا من العوامل التي -إن تم تطبيقها- تساهم في المشكلة استخدام البيانات المتحيزة أثناء تدريب النماذج.
فإذا كانت البيانات تحتوي على معطيات مضللة أو متحيزة، سيستند النموذج إلى هذه التحليلات عند تقديم الإجابات.
و بالتالى يزيد من احتمال تقديم ردود غير موثوقة أو حتى تمييزية.
و ما يدعم هذه التفسيرات الدراسة التي أجريت بواسطة فريق بقيادة "ووت شيلارت"، باحث في جامعة فالنسيا بإسبانيا.
و كان الهدف هو معرفة سبب ميل هذه البرامج إلى هذا التصرف.
حيث تم اختبار ثلاثة عائلات من النماذج اللغوية الكبيرة (ChatGPT، LLaMA، وBLOOM).
وكشفت النتائج أن كلما زادت قوة النموذج، زادت احتمالية تقديمه لإجابات مقنعة حتى في المسائل المعقدة. و هو ما يعزز من ظهور "الهلوسة و الكذب".
فعلى سبيل المثال تجاوزت معدلات الخطأ في مسائل الرياضيات 90% عندما زادت صعوبة السؤال.
و يستنتج شيلارت: "التحدث بثقة عن أمور لا نعرفها هو مشكلة إنسانية إلى حد كبير، ونماذج اللغة الكبيرة تمثل تقليدًا للبشر".
كيفية معالجة خداع ال AI
وفي ظل هذا الوضع، ما الذي يمكن فعله؟
يعتقد شيلارت أن الحل يكمن في إعادة تصميم واجهات المستخدم التي تتعامل مع الذكاء الاصطناعي بحيث يظهر للمستخدمين مستوى الشك في الإجابات المقدمة.
و قد كان هناك بالفعل نظام سابق في نماذج GPT المبكرة يُظهر الأجزاء التي لم يكن النموذج واثقًا منها، ولكن تم التخلي عنه في مرحلة التسويق.
كما أن من ضمن الحلول الأخرى المقترحة هو تدريب أدوات ذكاء اصطناعي منفصلة تكون مهمتها اكتشاف الأخطاء والتدليس في إجابات النماذج الأخرى.
فهذه الطريقة قد تساعد في تقليل عدد الاستجابات غير الصحيحة.
و تشير دراسة نشرتها مجلة Nature في فبراير الماضي عن إمكانية تطبيق هذا الحل، فقد تمكن باحثون من مدرسة IMT للدراسات المتقدمة في لوكا وجامعة بادوفا من تطوير خوارزمية للذكاء الاصطناعي تعتمد على نموذج لغة كبير، وحققت دقة تصل إلى 80% في تمييز القصص الحقيقية من القصص المُلفّقة.
و هو ما يبعث على التفاؤل في إمكانية استخدام مثل هذه الأدوات في المستقبل للتحقق من مصداقية المعطيات التي تُقدّمها نماذج اللغة الأخرى، وبالتالي المساهمة في التقليل من انتشار المعلومات الخاطئة.
بالإضافة إلى ذلك، يقترح شيلارت أنه يجب على المستخدمين التعامل مع هذه التطبيقات كأدوات مساعدة وليس كمدرس أو معلم.
كما يجب أن يتم استخدامه في مجالات يكون المستخدم فيها خبيرًا أو يستطيع التحقق من المعلومات من مصادر أخرى.
فالتعامل بحذر يمكن أن يساعدنا في تقليل الأخطاء الناتجة عن الاعتماد الزائد على ال AI.
كيف تتجنب الهلاوس؟ نصائح Arab AI
وأخيرًا، نقدم إليك نصائحنا عند استخدام الأدوات الذكية في الحصول على المعلومات.
١. تحقق من صحة ما تراه
عندما يتعلق الأمر بمسائل حيوية -مثل الحصول على مشورات طبية- فإن من الضروري عدم الاعتماد على ذلك بشكل رئيسي. من فضلك تحقق من صحة المعلومات جيدًا.
وتذكر أن هذا لا يغنيك عن استشارة المتخصصين.
٢. اختبر ثبات الإجابات
إذا كنت تتناقش مع الروبوت عن أمر ما مهم لك، وبعد الحصول على ما تريده، قم بفتح نافذة شات جديدة وابدأ في طرح الأسئلة مجددًا ولكن بشكل مختلف. وذلك للتأكد من صحة ما كنت حصلت عليه.
٣. استخدم أكثر من برنامج
لا تقتصر في حديثك مع أداة واحدة، تعود على استخدام تطبيقين مختلفين من شركتين على الأقل. واعرض عليهم نفس الموضوع الذي تريد مناقشته.
ومن خلال تجربتي ساعدني ذلك كثيرًا في اكتشاف النقاط المتفق عليها، والنقاط التي يجب إجراء مزيد من البحث بدقة بشأنها.