أطلقت شركة ميتا، بالتعاون مع جامعة الملك عبد الله للعلوم والتقنية (KAUST)، نموذجها الجديد المعروف باسم MarDini.
ويعتمد هذا النموذج على تقنية الانتشار (diffusion) لتقديم أدوات متعددة تساعد في تحسين جودة وإنتاجه.
كما يتميز بقدرته على إتمام مشاهد الفيديو الناقصة، وتحويل الصور الثابتة إلى مشاهد متحركة، إضافةً إلى إمكانية تمديد المشاهد القصيرة لإضافة مشاهد متواصلة بسلاسة. وهذا ما سنتطرق له بالفقرة القادمة.
قدرات نموذج الفيديو الجديد من ميتا
١. إكمال المشاهد الناقصة
تستطيع الأداة ملء الفجوات بين المشاهد في الفيديو، وذلك ما يساعد على تحقيق انتقالات مرنة بين اللقطات.
ولنفهم كيف يتم هذا، إذا قمت بإرسال مقطع لها، فإنها ستعتمد على أول وآخر إطار كإشارات مرجعية لتوليد مشاهد متوسطة.
وبالإضافة إلى ذلك، ستخلق انتقالات سلسة بين هذه المشاهد، فلن تشعر بعدم طبيعية ما تشاهده بدرجة كبيرة.
وهذه الخاصية مفيدة لمن يرغبون في تحسين استمرارية مقاطعهم دون الحاجة لمعدات متطورة.
٢. تحويل الصور إلى فيديو
حيث يجعلنا نقوم بإنشاء مقاطع متحركة انطلاقًا من صورة ثابتة واحدة.
ويعمل على توليد مشاهد متتابعة لتكملة الصورة وتحويلها إلى فيديو متكامل.
وفي إحدى التجارب، تم استخدام صورة مرجعية في منتصف الفيديو كنقطة بداية، ومن ثم تم عمل 16 لقطة إضافية بشكل متتابع، بحيث يظهر الفيديو في النهاية كأنه مشهد متحرك سلس لمدة ثانيتين، بسرعة عرض 8 لقطات في الثانية
توسيع الفيديوهات القصيرة
يقدم مارديني أيضًا ميزة تمديد المشاهد القصيرة عبر إضافة لقطات جديدة متواصلة وطبيعية تتلاءم مع المحتوى الأصلي.
فعلى سبيل المثال، تم توسيع فيديو يحتوي على 5 لقطات ليصبح مدته ثانيتين، وذلك من خلال إضافة 12 لقطة جديدة تكمل المشهد الأصلي بشكل طبيعي.
كيف تدرب مارديني
يعتمد MarDini على هيكلية تتكون من قسمين رئيسيين:
١. التخطيط:
يقوم هذا النموذج بمعالجة والذي يتعامل مع الإطارات (الصور) منخفضة الدقة التي يتم استخدامها كبداية للمشهد، وتوجيه المعلومات اللازمة لتوليد الإطارات الجديدة، باستخدام تقنية التنبؤ الذاتي المقنع (MAR).
و MAR هي تقنية تعمل على "إخفاء" أجزاء معينة من المشهد الأصلي.
وبعد الإخفاء، يحاول النموذج التنبؤ بالمعلومات المفقودة وملء هذه الفجوات بطريقة منطقية، بحيث تكون الإطارات الجديدة طبيعية وملائمة للمشهد.
٢. نموذج التوليد
يستعين بالمعلومات التي حصل عليها من مرحلة التخطيط ليقوم بتوليد إطارات (صور) عالية الدقة.
يعتمد هذا التوليد على عملية "الانتشار" لإنتاج الإطارات الجديدة بشكل تدريجي، ما يضمن جودة متناسقة وسلاسة عالية في الفيديو النهائي، بحيث يبدو الفيديو وكأنه تم تصويره دون انقطاع.
وبخلاف النماذج التقليدية التي تعتمد على بيانات مسبقة التحديد، يتم تدريب مارديني باستخدام مقاطع فيديو غير مُعنوَنة، بفضل استراتيجيته التدريجية التي تتيح للنموذج التعامل بمرونة مع أنماط مشاهد متعددة.
بماذا يتميز نموذج Meta؟
يزعم MarDini تميزه عن العديد من النماذج الأخرى، وذلك من خلال قدرته على التدريب من الصفر باستخدام بيانات فيديو غير مُسمَّاة، وذلك بفضل استراتيجية التدريب التدريجي.
فبدلاً من الاعتماد على نماذج الصور المعقدة والمدربة مسبقاً، يعمل النموذج على تكييف عملية الإخفاء للإطارات خلال التدريب، فيكون أكثر مرونة وقادراً على التعامل مع تشكيلات إطارات مختلفة.
ومن حيث الأداء، طبقًا لورقة النموذج البحثية يُعتبر مارديني أسرع وأكثر فعالية من النماذج التقليدية ذات الحجم المماثل من المعلمات، حيث يستطيع إنتاج مقاطع فيديو بجودة عالية وفي عدد خطوات أقل (وقت أقصر)، وبالتالي يعتبر خيارًا اقتصاديًا وفعالًا.
بالختام، تأتي خطوة إطلاق MarDini ضمن أهداف Meta المتواصلة لتعزيز مكانتها في مجال توليد الفيديوهات بالذكاء الاصطناعي. فقد أطلقت سابقاً نماذج مثل Emu Video وEmu Edit، إلى جانب نموذج MovieGen الذي أطلقته مؤخرًا كأداة متقدمة لتحويل النصوص إلى فيديوهات وتحريرها.
والشئ المميز أيضًا هو المشاركة العربية في هذا المشروع، ونتمني المزيد من الظهور العربي على ساحة الذكاء الاصطناعي.
إن كنت مهتمًا بهذا المجال: اطلع على مجموعة مختارة من افضل أدوات تصميم الفيديو بال AI.