CogVideoX | تحويل النص إلى فيديو مجانًا بجودة عالية

قامت مجموعة من الباحثين من جامعة Tsinghua وشركة Zhihu AI بتطوير نموذج ذكاء اصطناعي متطور يسمح بتحويل النصوص المكتوبة إلى مقاطع فيديو قصيرة، اطلقت عليه اسم CogVideoX.

يعتبر هذا الإصدار إضافة قوية في هذا المجال، خاصةً كونه أداة مفتوحة المصدر مُتاحة للجميع.

تجربة أداة CogVideoX لإنشاء فيديو بالذكاء الاصطناعي على منصة Huggingface — مثال لإنشاء فيديو باستخدام أداة CogVideoX على منصة هاجنج فيس

مميزات أداة CogVideoX في تحويل النص إلى فيديو

سهولة الاستخدام: حيث تستطيع استخدمه حتى من دون خبرة تقنية مُتقدمة لإنشاء فيديوهات من النصوص.

مفتوح المصدر: نموذج CogVideoX مفتوح المصدر و مُتاح للجميع مجانًا.
و يعتبر هذا أمرًا مُهمًا لأنه يساهم في إتاحة هذه التقنية للجميع تقليل هيمنة الشركات الكبيرة على هذا المجال، كما يسمح للمطورين تطويره وتحسينه وإضافة مميزات جديدة.

الجودة العالية: يقوم CogVideoX بإنتاج مقاطع فيديو بجودة عالية تصل مدتها إلى 6 ثوانٍ.

تتوفر إصدارات مختلفة من النموذج، و سنتحدث الان على سبيل المال عن مزايا الإصدار CogVideoX-2B.

CogVideoX-2B

يتميز CogVideoX-2B بأداء مُحسن يسمح بتشغيله على أجهزة سطح المكتب العادية. ويُمكن لبطاقة رسومات واحدة من نوع 4090 التعامل مع تشغيل النموذج، بينما يمكن لـ A6000 إكمال عملية الضبط الدقيق.
كما يدعم النموذج مُطالبات تصل إلى 226 رمزًا ويُتيح إمكانية تحسين جودة الفيديوهات الناتجة.

ومن أهم التحديثات في هذا الإصدار:

استخدام مكتبة diffusers لتحسين الأداء: تُساعد هذه المكتبة على تبسيط عملية توليد الفيديو وتحسين كفاءة النموذج.
دمج تقنية Tied VAE لتسريع العمليات: حيث تُساهم هذه التقنية في تقليل وقت معالجة الفيديو وتسريع عملية التوليد.

كيف يعمل CogVideoX في توليد الفيديوهات بالذكاء الاصطناعي؟

يعتمد CogVideoX على تقنيات متقدمة لتحويل النص إلى فيديو، مثل:

3D VAE:

و هي تقنية لضغط الفيديوهات بكفاءة دون التأثير على جودتها. تعتمد هذه التقنية على التفاف ثلاثي الأبعاد لتحليل الفيديو في الأبعاد الثلاثة (الطول والعرض والوقت) وفصل المعلومات المهمة عن التفاصيل غير الضرورية. هذا يسمح بِضغط الفيديو بشكل فعال مع الحفاظ على جودته العالية.

مثال: تخيّل أن لديك فيديو لشخص يمشي في شارع. تقنية 3D VAE تُمكن من فصل حركة الشخص عن خلفية الفيديو (المباني، الأشجار، إلخ). وبهذا، يتم ضغط الفيديو عن طريق تخزين معلومات حركة الشخص بشكل مُفصل وتخزين خلفية الفيديو بِتفاصيل أقل، مما يُقلل من حجم الملف دون التأثير على جودة الفيديو بشكل ملحوظ.

Expert Transformer:

و هي تقنية تساعد البرنامج على فهم العلاقة بين الكلمات والصور المتحركة. تعتمد هذه التقنية على نماذج اللغة الكبيرة ومعالجة اللغة الطبيعية لفهم سياق النص و ربطه بِمشاهد فيديو مُناسبة. وقد تحدثنا أمس عن معاني هذه الأمور بالتفصيل.

اطلع على مفهوم نماذج اللغة الكبيرة و معالجة اللغة الطبيعية.

مثال: إذا كتبت «شخص يُلقي كرة في السماء»، فإن Expert Transformer يُمكنه فهم أن «الشخص» هو فاعل الحركة، و «الكرة» هي المفعول به، و «يُلقي» هو الفعل. وبناءً على ذلك، يُمكنه البحث عن مشاهد فيديو مُناسبة تُطابق هذا الوصف و دمجها لإنشاء فيديو جديد.

وللتأكد من جودة الفيديوهات، يتم تدريب النموذج على مجموعة ضخمة من الفيديوهات عالية الجودة مع استبعاد الفيديوهات منخفضة الجودة. ويُستخدم في هذه العملية نماذج ذكاء اصطناعي أخرى مثل Panda70M و CogView3 و GPT-4 لإنشاء التسميات التوضيحية للفيديوهات.

تعرف أيضًا على موقع Hotshot لإنشاء مقاطع الفيديو.

أداء متفوق في اختبارات توليد الفيديو

أظهرت الاختبارات أن CogVideoX يتفوق على بعض النماذج الأخرى في جودة الفيديوهات التي يُنتجها، مثل Pika و Gen-2 و Open-Sora V1.2. و ذلك طبقا لما نشر في ملف ال pdf الخاص بالورقة البحثية للنموذج على موقع arxiv.

أداء CogVideoX في مجموعة من الاختبارات المعيارية أمام Pika و Gen-2 و Open-Sora V1.2.

حيث تم قياس أداء CogVideoX باستخدام مجموعة من الاختبارات المُعيارية بما في ذلك VBench و Dynamic Quality in Devil و GPT40-MT Score in Chrono-Magic. وأظهرت النتائج أن CogVideoX يتفوق على بعض النماذج الأخرى في مُعظم هذه الاختبارات.

كما يعمل المطورون على تحسين النموذج من خلال: