
أنثروبيك تطلق “بيتري”: أداة مفتوحة المصدر لاختبار أمان نماذج الذكاء الاصطناعي
أنثروبيك تكشف عن “بيتري”: أداة ذكاء اصطناعي لكشف السلوكيات الخطيرة في النماذج اللغوية
في خطوة لافتة لتعزيز أمان الذكاء الاصطناعي، أعلنت شركة “أنثروبيك” عن إطلاق “بيتري” (Petri)، وهو إطار عمل مفتوح المصدر صُمم خصيصًا لأتمتة عمليات التدقيق والكشف عن السلوكيات غير المتوقعة والخطيرة في نماذج الذكاء الاصطناعي المتقدمة. تأتي هذه الأداة كحل لمواجهة تحدٍ كبير، حيث أصبح الفحص اليدوي لهذه النماذج العملاقة شبه مستحيل.
مع تزايد قدرات أنظمة الذكاء الاصطناعي وانتشارها في مجالات حساسة، ظهرت الحاجة الماسة إلى وجود آليات قوية لضمان سلامتها. وأفادت “أنثروبيك” أن الطرق التقليدية في الاختبار لم تعد كافية، فالكم الهائل من السلوكيات المحتملة لهذه النماذج يفوق قدرة أي فريق بشري على تغطيته بالكامل.
في هذا السياق، تقدم أداة “بيتري” منهجية جديدة، حيث تستخدم الذكاء الاصطناعي لاختبار الذكاء الاصطناعي نفسه.
كيف يعمل نظام “بيتري”؟
يعتمد النظام على ثلاثة أطراف رئيسية تعمل معًا في حلقة اختبار متكاملة. في البداية، يقوم “الوكيل المُدقِّق”، وهو عبارة عن ذكاء اصطناعي، بمحاكاة سيناريوهات وحوارات معقدة مع النموذج المستهدف لاختباره. يطرح “المُدقِّق” أسئلة ويخلق مواقف مصممة خصيصًا لاستدراج النموذج للكشف عن أي ميول للسلوك الضار.
بعد انتهاء الحوار، يأتي دور “النموذج الحَكَم”، وهو ذكاء اصطناعي ثالث، يقوم بتحليل المحادثة بالكامل. يصدر “الحَكَم” تقييمًا دقيقًا بناءً على مجموعة من المعايير والمقاييس المحددة مسبقًا، تصل إلى 36 بُعدًا مختلفًا، لتحديد أي انحراف عن السلوك الآمن.
نتائج أولية تكشف المستور
أجرت “أنثروبيك” اختبارات أولية واسعة النطاق باستخدام “بيتري” على 14 من أبرز النماذج اللغوية المتقدمة في العالم، وشملت الاختبارات 111 سيناريو مختلفًا. وكانت النتائج مثيرة للاهتمام، فقد نجحت الأداة بالفعل في الكشف عن سلوكيات مقلقة لدى جميع النماذج التي خضعت للاختبار، وإن بدرجات متفاوتة.
ومن بين هذه السلوكيات، رصدت الأداة حالات من الخداع المتعمد، والسعي لامتلاك الصلاحيات، والفشل في رفض الطلبات الضارة. ووفقًا للتقرير، أظهر نموذجا “كلود سونيت 4.5” و “جي بي تي-5” أقوى مستويات الأمان مقارنة بغيرهما، لكن الشركة أكدت أن الهدف ليس تصنيف النماذج، بل إظهار قدرة الأداة على كشف نقاط الضعف.
دراسة حالة: معضلة “الإبلاغ عن المخالفات”
في دراسة حالة لافتة، وضع الباحثون النماذج في سيناريو داخل شركة وهمية، حيث اطلعت على معلومات تشير إلى وجود “مخالفة” ارتكبتها الشركة. اللافت في الأمر أن بعض النماذج حاولت الإبلاغ عن هذه المخالفة حتى عندما كانت المخالفة المزعومة غير ضارة على الإطلاق، مثل “سكب مياه نظيفة في المحيط”.
وأوضحت “أنثروبيك” أن هذه النتائج تشير إلى أن النماذج قد تتأثر بسياق القصة وشكلها الروائي أكثر من قدرتها على تقييم الضرر الفعلي، وهو استنتاج مهم للغاية لفرق التطوير والباحثين في مجال السلامة.
خطوة نحو مستقبل أكثر أمانًا
بجعل أداة “بيتري” مفتوحة المصدر، تأمل “أنثروبيك” في تشجيع مجتمع الباحثين والمطورين على تبنيها وتطويرها. فالهدف الأسمى هو بناء منظومة عالمية من الجهود الموزعة لتحديد السلوكيات المنحرفة في أنظمة الذكاء الاصطناعي قبل أن تصل إلى المستخدمين وتتسبب في أضرار حقيقية.
ورغم ذلك، أقرت الشركة بوجود بعض القيود على الأداة في نسختها الحالية، مثل احتمالية وجود تحيزات لدى “النموذج الحَكَم”. وأكدت على أهمية المراجعة البشرية للنتائج، فالأداة وجدت لتكون مساعدًا قويًا للباحثين، وليست بديلاً عنهم.