دليل مواقع وأدوات و تطبيقات الذكاء الاصطناعي

Wan 2.1: نموذج علي بابا الجديد لتوليد الفيديو ينافس Sora | تحميل مجاني

كشفت شركة علي بابا مؤخرًا عن Wan 2.1، وهو نموذج ذكاء اصطناعي مفتوح المصدر لتوليد الفيديو، ويمكننا اعتباره منافسًا مباشرًا لنموذج Sora من OpenAI.

ويقدم "Wan 2.1" إمكانيات متقدمة في تحويل النصوص والصور إلى مقاطع فيديو عالية الجودة، ويدعم تحرير الفيديو بدقة.

ويتكون من أربعة نماذج متخصصة وفقًا لاستخدامات مختلفة:

  • T2V-1.3B وT2V-14B: لتحويل النصوص إلى فيديو.
  • I2V-14B-720P وI2V-14B-480P: لتحويل الصور إلى فيديو.

والمميز أيضًا هو إمكانية تشغيل النموذج الأصغر T2V-1.3B على بطاقات رسومية استهلاكية بذاكرة 8.19 جيجابايت VRAM فقط، حيث يستطيع توليد فيديو بدقة 480p في أقل من أربع دقائق باستخدام Nvidia RTX 4090.

كيف يعمل Wan 2.1

يعتمد النموذج على تقنية ذكاء اصطناعي متقدمة المعروفة باسم التحويل بالانتشار (Diffusion Transformer).

وتعمل هذه التقنية على تحسين جودة المشاهد وجعل الانتقالات بين الإطارات أكثر سلاسة.

كما يستفيد من تقنية ضغط البيانات الذكية (VAE)، التي تساعد على تقليل استهلاك الذاكرة دون التأثير على وضوح الفيديو.

بالإضافة إلى ذلك، يستخدم نظام Wan-VAE ثلاثي الأبعاد، وهو أسلوب متطور يساعد على جعل الحركة داخل الفيديو أكثر طبيعية، بحيث تتوافق تحركات الأشخاص والأجسام مع ما يحدث في الواقع.

وكما نرى، تساهم هذه التقنيات الثلاثة في ٣ محاور هامة للغاية: استهلاك الموارد، الدقة والجودة، والواقعية.

مقارنة الأداء مع OpenAI Sora

تدّعي علي بابا أن "Wan 2.1" يتفوق على "Sora" في عدة جوانب، منها:

  • تحسين جودة المشاهد، حيث ينتج مقاطع أكثر وضوحًا وتماسكًا.
  • دقة أفضل في تمثيل الأجسام داخل المشاهد.
  • تمركز أكثر دقة للعناصر، وهو ما يقلل من التشوهات البصرية.

كما يتصدر النموذج حاليًا -حتى لحظة كتابة هذه السطور- لوحة تصنيف VBench، وهو مؤشر على كفاءة أدائه مقارنة بالنماذج المنافسة.

قدرات متطورة في إنشاء المحتوى

يتيح النموذج الجديد إنشاء مقاطع فيديو تحتوي على حركات معقدة، مثل الدورانات السريعة والانتقالات السلسة بين المشاهد، ومحاكاة الفيزياء الحقيقية والتفاعل الواقعي بين الكائنات.

وفي هذا الإطار، قدّمت علي بابا عدة أمثلة على إمكانيات النموذج، مثل:

  • كلاب تقود دراجات، في إثبات لقدرته على محاكاة الحركة المركّبة.
  • ملاكمة بين قطتين، حيث تظهر تفاصيل الحركة والتفاعل الواقعي.
  • رامٍ يطلق السهام، مع إظهار دقيق لحركة القوس والسهم.

كذلك يدعم الإصدار توليد مقاطع بجودة سينمائية، بإضافة تأثيرات وأنماط إخراج متعددة، إلى جانب إمكانية تحرير الفيديو بدقة عالية باستخدام الصور والمقاطع.

الكتابة داخل المقاطع

من الميزات اللافتة في "وان 2.1" دعمه لإنشاء النصوص داخل الفيديو.

وهو أول نموذج مفتوح المصدر يدعم كتابة نصوص باللغتين الصينية والإنجليزية داخل المقاطع المولّدة.

كما يمكنه توليد مؤثرات صوتية وموسيقى خلفية متناسقة مع محتوى الفيديو والإيقاع الحركي.

ورغم أن النموذج متاح مجانًا عبر منصات مثل Hugging Face وGitHub، إلا أن الاستخدام التجاري يخضع لقيود تحدّ من توظيفه في بعض القطاعات.

بالإضافة إلى ذلك، توفر Krea AI النموذج عبر منصتها، مع إتاحة تجربة مجانية للمستخدمين.

واجهة نموذج Wan 2.1 على منصة Krea AI. تجربة مجانية للمستخدمين

تحديات أدوات توليد الفيديو بالذكاء الاصطناعي

رغم قدرات Wan 2.1 المتطورة، إلا أنه يجب طرح بعض الأمور الأخرى في النصف الآخر من الكوب.

عادةً ما تحاط مثل هذه الأدوات بالشكوك حول الجوانب الأمنية، خصوصًا مع عدم وضوح آليات الكشف عن المحتوى المُنتج بالذكاء الاصطناعي.

فقد يتم استخدام هذا النوع من التكنولوجيا لأغراض غير أخلاقية. وهذا الأمر يستدعي تطوير معايير واضحة لوضع علامات على المحتوى المولّد وتحقيق شفافية أكبر في الاستخدام.

وفي الوقت الذي تسعى فيه شركات مثل ByteDance لتطوير نماذج منافسة مثل OmniHuman-1، يبدو أن مجال الذكاء الاصطناعي لتوليد الفيديو يشهد سباقًا متسارعًا.

حيث تسعى الشركات إلى تقديم أدوات قوية لإنتاج محتوى متقدم بقدرات غير مسبوقة.

Related Posts

Mistral OCR: الحل الذكي لمعالجة مستندات PDF المعقدة بالذكاء الاصطناعي
  • مارس 7, 2025

أعلنت شركة Mistral الفرنسية، المتخصصة في تطوير نماذج الذكاء الاصطناعي اللغوية، عن إطلاق واجهة برمجية جديدة لمعالجة المستندات المعقدة بصيغة PDF….

اقرأ المزيد

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

آخر المقالات

QwQ-32B: كل ما تريد معرفته عن نموذج على بابا الجديد منافس DeepSeek-R1

    QwQ-32B: كل ما تريد معرفته عن نموذج على بابا الجديد منافس DeepSeek-R1

    الآن على X: اسأل Grok مباشرة لفهم أي منشور في التعليقات

      الآن على X: اسأل Grok مباشرة لفهم أي منشور في التعليقات

      Mistral OCR: الحل الذكي لمعالجة مستندات PDF المعقدة بالذكاء الاصطناعي

        Mistral OCR: الحل الذكي لمعالجة مستندات PDF المعقدة بالذكاء الاصطناعي