دليل مواقع وأدوات و تطبيقات الذكاء الاصطناعي

كيف ستفكر الروبوتات؟ ميتا تجيب بنموذج V-JEPA 2 الجديد

أطلقت شركة ميتا يوم الأربعاء نموذجها الجديد للذكاء الاصطناعي V-JEPA 2.

تم تصميم هذا النموذج، الذي يعد "نموذجًا عالميًا"، بهدف مساعدة وكلاء الذكاء الاصطناعي على فهم العالم من حولهم والتصرف بمنطقية.

وتطمح ميتا من خلال هذا الابتكار إلى تطوير وكلاء قادرين على التفكير قبل الفعل، وهذا تقدمٌ ملموس نحو تحقيق الذكاء الاصطناعي المتقدم (AMI) وتطبيقاته في مجال الروبوتات.

وبالتزامن مع ذلك، طرحت الشركة ثلاثة معايير جديدة لتقييم قدرة النماذج الحالية على الاستدلال المنطقي بشأن العالم المادي استنادًا إلى مقاطع الفيديو.

ما هو نموذج V-JEPA 2

يأتي V-JEPA 2 كامتداد لنموذج V-JEPA الذي أصدرته ميتا العام الماضي.

واعتمد تدريب النموذج الجديد على أكثر من مليون ساعة من الفيديو.

ويفترض أن هذه البيانات التدريبية الضخمة تدعم تمكين الروبوتات أو وكلاء الذكاء الاصطناعي الآخرين من العمل بفعالية في العالم المادي، وفهم مفاهيم مثل الجاذبية والتنبؤ بتأثيرها على تسلسل الأحداث. هذه القدرة على الربط تشبه الحس البديهي الذي يتطور لدى الأطفال الصغار والحيوانات.

على سبيل المثال، عندما ترمي كرة لكلب، يتوقع الكلب ارتدادها من الأرض وصعودها، ويركض نحو مكان هبوطها المتوقع، وليس مكانها اللحظي.

وقدمت ميتا أمثلة توضيحية، حيث قد يصادف الروبوت موقفًا مثل حمل طبق وملعقة مسطحة والتوجه نحو موقد عليه بيض مطبوخ، فيتوقع النظام أن الخطوة التالية المرجحة هي استخدام الملعقة لنقل البيض إلى الطبق.

شرح توضيحي لنموذج الذكاء الاصطناعي V-JEPA 2 من ميتا

ووفقًا لميتا، يتفوق V-JEPA 2 في سرعته على نموذج Cosmos من إنفيديا، الذي يسعى أيضًا لتعزيز الذكاء المرتبط بالعالم المادي، بنحو 30 مرة، مع الإشارة إلى أن ميتا قد تعتمد معايير تقييم مختلفة عن إنفيديا.

تكوين وتدريب V-JEPA 2

يعمل نموذج V-JEPA 2، البالغ حجمه 1.2 مليار مُعلَمَة (parameter)، استنادًا إلى بنية التضمين المشترك التنبؤية (JEPA) من ميتا.

ويتألف النموذج من مكونين رئيسيين: مُشَفِّر (encoder) يأخذ الفيديو الخام وينتج تضمينات تلتقط معلومات دلالية مفيدة عن حالة العالم المرصود، ومُتَنَبِّئ (predictor) يأخذ تضمين الفيديو وسياقًا إضافيًا حول المطلوب التنبؤ به ثم ينتج تضمينات مُتَنَبَّأ بها.

وقد دربت ميتا V-JEPA 2 باستخدام التعلم الذاتي الإشراف من الفيديو، وهذا الأسلوب سمح بتدريب النموذج على الفيديو دون الحاجة لتعليقات توضيحية بشرية إضافية في البداية. يشمل تدريب V-JEPA 2 مرحلتين: تدريب مُسبَق دون تحديد أفعال، يليه تدريب إضافي مشروط بالفعل.

في المرحلة الأولى، جرى استخدام أكثر من مليون ساعة فيديو ومليون صورة من مصادر متنوعة. هذه البيانات المرئية الغنية تدعم النموذج في تعلم الكثير عن كيفية عمل العالم، بما في ذلك تفاعل الناس مع الأشياء، وحركة الأشياء في العالم المادي، وتفاعلها مع بعضها البعض.

ووجدت ميتا أن النموذج يظهر قدرات رئيسية متعلقة بالفهم والتنبؤ بعد مرحلة التدريب المسبق.

على سبيل المثال، عند تدريب نظام قراءة انتباهي خفيف فوق ميزات المشفر المجمدة، يسجل V-JEPA 2 أداءً استثنائيًا في مهمة التعرف على الأفعال Something-Something v2، التي تعتمد على فهم الحركة.

وبالمثل، عند تدريب نظام قراءة انتباهي فوق ميزات المشفر والمتنبئ المجمدة، يسجل V-JEPA 2 مستوى جديدًا من الأداء في مهمة توقع الأفعال Epic-Kitchens-100، التي تخص التنبؤ بالفعل (المكون من اسم وفعل) الذي سيقع بعد ثانية واحدة في المستقبل من فيديو منظور الشخص الأول.

وأخيرًا، فإن مواءمة V-JEPA 2 مع نموذج لغوي ينجم عنها أداء متطور في معايير الإجابة على أسئلة الفيديو مثل Perception Test وTempCompass.

أما المرحلة الثانية من التدريب فينصب تركيزها على جعل النموذج أكثر فائدة للتخطيط، وذلك باستخدام بيانات الروبوت، التي تتضمن ملاحظات مرئية (فيديو) وإجراءات التحكم التي كان الروبوت يقوم بها. وتعمد ميتا إلى إدخال هذه البيانات في إجراء تدريب JEPA من خلال تزويد المتنبئ بمعلومات الفعل.

بعد التدريب على هذه البيانات الإضافية، يتعلم المتنبئ مراعاة إجراءات محددة عند إجراء التنبؤات ويمكن بعد ذلك استخدامه للتحكم.

ولا يتطلب الأمر كمية كبيرة من بيانات الروبوت لهذه المرحلة الثانية؛ ففي التقرير التقني، أوضحت ميتا أن التدريب باستخدام 62 ساعة فقط من بيانات الروبوت ينتج بالفعل نموذجًا صالحًا للاستخدام في التخطيط والتحكم.

كيف يمكن الاستفادة من قدرات النموذج في المهام المختلفة

بفضل هذه القدرات، يستطيع نموذج V-JEPA 2 مساعدة الروبوتات على التفاعل مع أشياء وبيئات غير مألوفة، وهو مفهوم معروف بالتخطيط الروبوتي الصفري (zero-shot robot planning).

وأظهرت ميتا أن الروبوتات تستطيع استخدام V-JEPA 2 لتنفيذ مهام مثل الوصول إلى شيء، أو التقاطه، أو وضعه في مكان جديد.

وبالنسبة للمهام قصيرة المدى، مثل التقاط شيء أو وضعه، يجري تحديد الهدف على شكل صورة.

ويستخدم الروبوت مُشفِّر V-JEPA 2 للحصول على تضمينات للحالة الحالية والهدف.

وانطلاقًا من حالته الحالية المرصودة، يضع الروبوت خطته بعد ذلك باستخدام المتنبئ لتصور عواقب اتخاذ مجموعة من الإجراءات المرشحة وتقييمها بناءً على مدى اقترابها من الهدف المنشود.

وعند كل خطوة زمنية، يقوم الروبوت مجددًا بالتخطيط ويشرع في الإجراء التالي الأعلى تقييمًا نحو ذلك الهدف عبر التحكم التنبئي بالنموذج.

أما بالنسبة للمهام الأطول مدى، مثل التقاط شيء ووضعه في المكان الصحيح، فيجري تحديد سلسلة من الأهداف الفرعية المرئية التي يسعى الروبوت لتحقيقها بالتتابع، بشكل مشابه لتعلم التقليد البصري الملاحظ لدى البشر.

ومع هذه الأهداف الفرعية المرئية، يبلغ V-JEPA 2 معدلات نجاح تتراوح بين 65% و80% لمهام التقاط ووضع أشياء جديدة في بيئات جديدة وغير مرئية سابقًا.

وتجعل ميتا الشفرة المصدرية ونقاط فحص النموذج متاحة لتطبيقات تجارية وبحثية، على أمل بناء مجتمع واسع حول هذا البحث.

ثلاثة معايير جديدة لتقييم استدلال الذكاء الاصطناعي

في سياق متصل، أعلنت ميتا عن إطلاق ثلاثة معايير قياس جديدة لتقييم مدى فهم النماذج الحالية للعالم المادي والتفكير المنطقي بشأنه من خلال الفيديو.

ورغم أن أداء البشر يسجل نسبًا عالية في هذه المعايير (85% - 95%)، إلا أن النماذج الحالية، بما فيها V-JEPA 2، لا تزال تظهر فجوة ملحوظة.

أول هذه المعايير هو IntPhys 2، وهو مصمم خصيصًا لقياس قدرة النماذج على التمييز بين السيناريوهات المحتملة فيزيائيًا وغير المحتملة، بناءً على معيار IntPhys السابق وتوسيعه.

أما المعيار الثاني، Minimal Video Pairs (MVPBench)، فيقيس قدرات فهم العالم المادي لنماذج الفيديو واللغة عبر أسئلة متعددة الخيارات، وهو مصمم للحد من الحلول المختصرة الشائعة.

وأخيرًا، يقيس معيار CausalVQA قدرة نماذج الفيديو واللغة على الإجابة عن الأسئلة المتعلقة بالسبب والنتيجة في العالم المادي، بما في ذلك الأسئلة حول الافتراضات المضادة (ماذا كان سيحدث لو...)، والتوقعات (ماذا قد يحدث تاليًا)، والتخطيط (ما الإجراء الذي ينبغي اتخاذه تاليًا لتحقيق هدف).

وأشارت ميتا إلى وجود لوحة صدارة على منصة Hugging Face لتتبع تقدم النماذج وفق هذه المعايير الجديدة.

ونقلت ميتا عن يان ليكون، كبير علماء الذكاء الاصطناعي في الشركة، قوله: "نعتقد أن النماذج العالمية ستفتح الباب أمام عصر جديد للروبوتات، وستدعم تمكين وكلاء الذكاء الاصطناعي في العالم الحقيقي من المساعدة في الأعمال المنزلية والمهام المادية دون الحاجة إلى كميات فلكية من بيانات تدريب الروبوتات". الهدف الأسمى من هذه الجهود هو تحقيق الذكاء الاصطناعي المتقدم (AMI).

وتعتزم ميتا مواصلة استكشاف عدة مجالات في عملها على النماذج العالمية.

حاليًا، يتعلم V-JEPA 2 ويقوم بالتنبؤات على نطاق زمني واحد. ومع ذلك، تتطلب العديد من المهام التخطيط عبر نطاقات زمنية متعددة.

لذلك، ترغب ميتا في التركيز على تدريب نماذج JEPA هرمية قادرة على التعلم والاستدلال والتخطيط عبر نطاقات زمنية ومكانية متعددة.

وهناك اتجاه مهم آخر يتمثل في نماذج JEPA متعددة الوسائط، تستطيع إجراء تنبؤات باستخدام مجموعة متنوعة من الحواس، بما في ذلك البصر والصوت واللمس.

اطلع على إعلان شركة ميتا عن هذه التحديثات

Khaled B.

خبير في الذكاء الاصطناعي يتمتع بخبرة واسعة في تطوير وتنفيذ حلول متقدمة باستخدام أحدث تقنياته. مُتخصص في توظيف هذه الإمكانيات لتحسين الأعمال وتحقيق الأرباح من خلال الابتكار التكنولوجي. لديه شغف لإيجاد استراتيجيات وحلول مبتكرة تساعد الشركات والأفراد على تحقيق أهدافهم من خلال تسخير هذه التكنولوجيا.

اقرأ أيضًا

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *