
دراسة تكشف عن «شخصيات» الذكاء الاصطناعي لنماذج OpenAI وجوجل و Anthropic
دراسة تكشف «بصمات شخصية» مخفية لنماذج الذكاء الاصطناعي… كيف تفكر أنظمة OpenAI وجوجل بشكل مختلف؟
في خطوة تكشف عن خبايا طريقة عمل نماذج الذكاء الاصطناعي، قدم فريق بحثي مشترك من «Anthropic» و»Thinking Machines Lab» دراسة جديدة تلقي الضوء على الفروقات الدقيقة في «شخصيات» أشهر النماذج اللغوية في العالم.
فقد طور الباحثون أسلوبًا مبتكرًا لاختبار قواعد السلوك التي تحكم هذه الأنظمة، وخلصوا إلى نتائج مثيرة تظهر أن نماذج كل شركة تمتلك بصمة قيمية تميزها عن غيرها.
قواعد اللعبة.. عندما تكون التعليمات غير واضحة
تعمل جميع نماذج الذكاء الاصطناعي، مثل «ChatGPT» من OpenAI و»Claude» من Anthropic، بناءً على وثائق داخلية تعرف بـ «مواصفات النموذج». هذه المواصفات هي بمثابة دليل التعليمات الذي يحدد للنموذج كيف يتصرف وما هي المبادئ التي يجب أن يتبعها.
ولكن، أشارت الدراسة الجديدة إلى أن هذه التعليمات قد تكون غامضة أو حتى متناقضة في بعض الأحيان.
في هذا الإطار، ابتكر الباحثون طريقة ذكية لاختبار هذه القواعد، عبر وضع النماذج في مواقف صعبة تتطلب منها اتخاذ قرارات أخلاقية معقدة.
وقاموا بتصميم أكثر من 300 ألف سيناريو يضع قيمتين إيجابيتين في مواجهة بعضهما، مثل الاختيار بين «تحقيق العدالة الاجتماعية» و»فاعلية إدارة الأعمال»، أو بين «الأمانة المطلقة» و»مراعاة مشاعر المستخدم».
اختلاف الإجابات يكشف المستور
كانت الفكرة الرئيسية للدراسة بسيطة: إذا كانت قواعد السلوك واضحة ودقيقة، فمن المفترض أن تصل معظم النماذج إلى استنتاجات متشابهة.
ولكن، عندما تتباين إجابات النماذج بشكل كبير، فهذا يعد مؤشرًا قويًا على وجود فجوة أو تضارب في دليل التعليمات الأساسي الخاص بها.
ووفقًا للبحث، فإن السيناريوهات التي شهدت خلافًا كبيرًا بين النماذج سجلت معدل انتهاكات لقواعد السلوك أعلى بما يتراوح بين 5 إلى 13 مرة.
وأفاد الباحثون أن هذا النمط يرجع إلى وجود تناقضات في نصوص المواصفات نفسها، وليس مجرد خلل في نموذج واحد بعينه.
لكل نظام «شخصيته» الخاصة
لعل أبرز ما كشفته الدراسة هو ظهور ميول سلوكية ثابتة أو «بصمات شخصية» لكل عائلة من النماذج اللغوية عند مواجهة سيناريوهات غامضة. وقد أظهرت النتائج أنماطًا واضحة كالتالي:
- نماذج Claude (من Anthropic): أظهرت ميلًا واضحًا نحو إعطاء الأولوية للمسؤولية الأخلاقية والنزاهة الفكرية والموضوعية.
- نماذج OpenAI (مثل GPT): كانت تميل بشكل متكرر إلى تفضيل الكفاءة والاستخدام الأمثل للموارد.
- نماذج Gemini (من Google) و Grok (من xAI): ركزت إجاباتها في الغالب على إظهار العمق العاطفي والتواصل الإنساني الأصيل.
بالمقابل، وجدت الدراسة أن بعض القيم، مثل «فاعلية إدارة الأعمال» و»العدالة الاجتماعية»، لم تظهر نمطًا ثابتًا لدى أي من الشركات، الأمر الذي يوحي بأن هذه الجوانب لا تزال محل خلاف أو لم تحظ باهتمام كافٍ عند تصميم سلوكيات هذه الأنظمة.
أداة لتصحيح المسار قبل فوات الأوان
لم تقتصر فائدة هذه الاختبارات على كشف شخصيات النماذج فقط، بل ساعدت أيضًا في تحديد حالات فشل واضحة.
على سبيل المثال، رصدت الدراسة نماذج ترفض الإجابة عن أسئلة مشروعة وآمنة بسبب حذرها المفرط، وفي حالات أخرى، كشفت عن استجابات منحازة وغير سليمة.
في النهاية، تقدم هذه الدراسة أداة تشخيصية قوية لمطوري الذكاء الاصطناعي. فبدلًا من انتظار وقوع الأخطاء بعد إطلاق النماذج للعامة،
يستطيع المطورون الآن استخدام هذا النهج لفحص «النقاط العمياء» في أنظمتهم وتصحيح التناقضات في قواعدها الداخلية، وهو ما يفتح الباب نحو بناء أنظمة ذكاء اصطناعي أكثر أمانًا وموثوقية في المستقبل.




