MiniMax Hailuo 02 ضد Veo 3 | أيهما أفضل لإنتاج الفيديو بالذكاء الاصطناعي؟

يشهد عالم إنتاج الفيديو بالذكاء الاصطناعي تطورات متسارعة، ومع كل تطور تظهر أدوات جديدة تعد بقدرات فائقة.

في هذا السياق، يبرز اسم «Hailuo 02» من شركة مينيماكس (MiniMax) الصينية، كلاعب واعد جديد يقدم نفسه بقوة في مواجهة Veo 3 التابع لعملاق التكنولوجيا جوجل.

يعيد هذا الوضع الجديد رسم خريطة المنافسة، خصوصًا في مجال إنتاج الفيديو الصامت عالي الدقة.

إطلاق Hailuo 02

أعلنت شركة MiniMax، المعروفة أيضًا باسم Xiyu Technology، عن الجيل الثاني من نموذجها لتوليد الفيديو، Hailuo 02، محققةً بذلك نقلة في الأداء والسعر.

ويستند النموذج الجديد إلى معمارية مبتكرة أطلقت عليها الشركة اسم «إعادة توزيع الحوسبة المدركة للضوضاء» (Noise-aware Compute Redistribution – NCR).

تفيد الشركة بأن هذه المعمارية ترفع كفاءة التدريب والاستدلال بمقدار 2.5 مرة.

وتتعامل معمارية NCR مع مقاطع الفيديو الطويلة بصورة مختلفة بناءً على مرحلة التدريب.

ففي المراحل المبكرة حيث الضوضاء الاصطناعية عالية، يجري ضغط مقاطع الفيديو قدر الإمكان.

بينما في المراحل اللاحقة، حين تكون مقاطع الفيديو التدريبية أكثر وضوحًا، يعالجها النموذج بدقتها الكاملة.

المقارنة مع الإصدار الأسبق

وبالمقارنة مع إصداره السابق 01، يضم Hailuo 02 عددًا أكبر من المعلمات يصل إلى ثلاثة أضعاف، وبيانات تدريب أكبر بأربعة أضعاف، مع تحسينات ملحوظة في جودة البيانات وتنوعها، دون أن تكشف الشركة عن الأرقام الدقيقة.

وفقًا لمينيماكس، يقدم Hailuo 02 أداءً متفوقًا في التعامل مع الأوامر النصية المعقدة ومحاكاة العمليات الفيزيائية.

وتذهب الشركة إلى حد القول بأنه النموذج الوحيد حاليًا القادر على توليد مشاهد معقدة بدقة، مثل عروض الجمباز.

ويتوفر Hailuo 02 بخيارات متعددة، منها دقة 768p لمدة ست أو عشر ثوانٍ، ودقة 1080p لمدة ست ثوانٍ. هذا يمثل تطورًا عن النموذج السابق الذي كان محدودًا بدقة 720p وست ثوانٍ.

ماذا عن Google Veo 3 ومزاياه

من ناحية أخرى، يأتي Veo 3 كجزء من منظومة Flow الإبداعية المتكاملة من جوجل، والتي تجمع بين توليد الفيديو (Veo)، وتوليد الصور (Imagen)، وفهم الأوامر النصية (Gemini) ضمن واجهة واحدة.

يوفر لنا هذا النظام المتكامل مساحة موحدة لإنشاء المحتوى وتحريره وإدارته.

كما أن الميزة الفارقة لجوجل فيو 3 هي قدرته على توليد الصوت الأصلي. فمن خلال أمر نصي واحد، يستطيع النموذج إنتاج حوار متزامن، ومؤثرات صوتية، وموسيقى، وهذا يسمح للمبدعين ببناء مشاهد سردية غنية دون الحاجة لأدوات خارجية.

تم إطلاق Veo 3 في مايو 2025 بقدرات تصل إلى دقة 4K، مع مقاطع فيديو تصل مدتها إلى 8 ثوانٍ. وتعمل جوجل على تضمين كافة المحتويات بعلامة مائية رقمية (SynthID) مع تطبيق معايير صارمة لمنع الأوامر غير اللائقة.

وداخل منظومة «Flow»، ستجد أدوات مثل SceneBuilder لربط المقاطع، وCamera Controls للتحكم في الإطارات والحركة، وIngredients لتحميل مراجع لضمان اتساق الشخصيات أو الأساليب.

ورغم أن Veo 3 قد يخطئ أحيانًا في تفسير الأوامر أو يواجه صعوبات في محاكاة الفيزياء المعقدة، فإن جمعه بين الصوت والصورة يفتح المجال أمام تصميمات إبداعية واسعة.

أما فيما يتعلق بالتكلفة، بدأ فيو 3 بسعر مرتفع، لكن جوجل استجابت لتغيرات السوق وقدمت خطة Google AI Pro بسعر 20 دولارًا شهريًا، تشمل الوصول إلى «Flow» و»Veo 3 السريع» و100 عملية توليد شهريًا.

المقارنة بين Hailuo 02 و Veo 3: نقاط التفوق والاختلاف

تقييمات المستخدمين

في تقييمات المستخدمين ضمن منصة «Artificial Analysis Video Arena»، حل Hailuo 02 في المرتبة الثانية ضمن فئة تحويل الصور إلى فيديو، متقدمًا على Google Veo 3 (رغم أن نسخة فيو 3 المستخدمة في التقييم لم تدعم الصوت).

لقطة شاشة لجدول ترتيب Artificial Analysis Video Arena لنماذج تحويل الصور إلى فيديو، تظهر Hailuo 02 من MiniMax في المرتبة الثانية متقدمًا على Veo 3 Preview (بدون صوت) من جوجل. — ترتيب Artificial Analysis Video Arena لنماذج تحويل الصور إلى فيديو.

ومنذ الإطلاق التجريبي في أغسطس من العام الماضي، جرى إنشاء ما يزيد على 3.7 مليار مقطع فيديو باستخدام منصة Hailuoai، الأمر الذي يعكس اهتمامًا واسعًا من المستخدمين حول العالم.

الجودة البصرية ودقة الأوامر

يجمع العديد من المستخدمين، استنادًا إلى تجاربهم ومنصات التقييم، على أن Hailuo 02 يتفوق في مجال الفيديو الصامت.

وأشار المستخدمون على منصة Reddit إلى أنه «يتفوق على فيو 3» في دقة الأوامر والجودة البصرية.

ويعزز هذا الرأي تصنيف Hailuo 02 المتقدم في Artificial Analysis Video Arena.

محاكاة الواقع والحركة

يبرع Hailuo 02 في عرض الحركة والفيزياء والتفاصيل بدقة، خاصة في المشاهد الديناميكية مثل الألعاب الرياضية أو القتال.

كما يمتلك أيضًا «مجموعة أدوات تحكم المخرج» التي تسمح بتوجيه اللقطات بأوامر مثل «تحريك الكاميرا لأسفل» أو «تقريب الصورة».

الصوت وتجربة العمل

هنا، يتألق Veo 3 بوضوح بفضل قدراته الصوتية المدمجة.

وبالنسبة للمحتوى الذي يعتمد على الحوار أو الصوت، يظل هذا النموذج الخيار الأنسب.

بالإضافة إلى ذلك، تقدم منظومة «Flow» من جوجل تجربة عمل أكثر تكاملاً.

السرعة

بشكل عام، يظهر Veo 3 أداء أسرع في توليد المحتوى، خاصة في الخطط المدفوعة.

وقد يعاني Hailuo 02 من بطء في بعض الأحيان، خصوصًا عند زيادة الطلب.

التكلفة

ظهور Hailuo 02 بهذه القوة له تداعيات مهمة على صناعة الفيديو بالذكاء الاصطناعي. فهو يزيد من حدة المنافسة، الأمر الذي يدفع نحو مزيد من الابتكار وتعديل الأسعار، وهو ما حدث بالفعل مع جوجل.

ويستفيد من هذا الوضع صناع المحتوى الذين يحصلون على أدوات أكثر قوة وبتكلفة أقل.

ورغم تفوق Hailuo 02 في جوانب معينة، فإنه يواجه تحديات مثل غياب دعم الصوت حاليًا، وقضايا قابلية التوسع للاستخدامات المؤسسية الكبيرة. وتخطط MiniMax لإضافة قدرات صوتية وتحسينات أخرى في المستقبل.

وفي النهاية، يمثل كل من Hailuo 02 وVeo 3 مسارًا مختلفًا نحو مستقبل إنتاج الفيديو بالذكاء الاصطناعي، حيث يركز الأول على الدقة البصرية المذهلة بتكلفة منخفضة، بينما يقدم الآخر حلاً متكاملاً مع تركيز على السرد الصوتي والمرئي.

ويعتمد الاختيار بينهما حاليًا على الاحتياجات المحددة لكل شخص، ولكن المؤكد أن هذه المنافسة ستصب في صالح تطور هذا المجال.