دليل مواقع وأدوات و تطبيقات الذكاء الاصطناعي

CogVideoX: أداة مجانية لتحويل النص إلى فيديو بجودة عالية

قامت مجموعة من الباحثين من جامعة Tsinghua وشركة Zhihu AI بتطوير نموذج ذكاء اصطناعي متطور يسمح بتحويل النصوص المكتوبة إلى مقاطع فيديو قصيرة، اطلقت عليه اسم CogVideoX.

يعتبر هذا الإصدار إضافة قوية في هذا المجال، خاصةً كونه أداة مفتوحة المصدر مُتاحة للجميع.

تجربة أداة CogVideoX لإنشاء فيديو بالذكاء الاصطناعي على منصة Huggingface
مثال لإنشاء فيديو باستخدام أداة CogVideoX على منصة هاجنج فيس

مميزات أداة CogVideoX في تحويل النص إلى فيديو

سهولة الاستخدام: حيث تستطيع استخدمه حتى من دون خبرة تقنية مُتقدمة لإنشاء فيديوهات من النصوص.

مفتوح المصدر: نموذج CogVideoX مفتوح المصدر و مُتاح للجميع مجانًا.
و يعتبر هذا أمرًا مُهمًا لأنه يساهم في إتاحة هذه التقنية للجميع تقليل هيمنة الشركات الكبيرة على هذا المجال، كما يسمح للمطورين تطويره وتحسينه وإضافة مميزات جديدة.

الجودة العالية: يقوم CogVideoX بإنتاج مقاطع فيديو بجودة عالية تصل مدتها إلى 6 ثوانٍ.

تتوفر إصدارات مختلفة من النموذج، و سنتحدث الان على سبيل المال عن مزايا الإصدار CogVideoX-2B.

 

CogVideoX-2B

يتميز CogVideoX-2B بأداء مُحسن يسمح بتشغيله على أجهزة سطح المكتب العادية. ويُمكن لبطاقة رسومات واحدة من نوع 4090 التعامل مع تشغيل النموذج، بينما يمكن لـ A6000 إكمال عملية الضبط الدقيق.
كما يدعم النموذج مُطالبات تصل إلى 226 رمزًا ويُتيح إمكانية تحسين جودة الفيديوهات الناتجة.

 

ومن أهم التحديثات في هذا الإصدار:

  • استخدام مكتبة diffusers لتحسين الأداء: تُساعد هذه المكتبة على تبسيط عملية توليد الفيديو وتحسين كفاءة النموذج.
  • دمج تقنية Tied VAE لتسريع العمليات: حيث تُساهم هذه التقنية في تقليل وقت معالجة الفيديو وتسريع عملية التوليد.

كيف يعمل CogVideoX في توليد الفيديوهات بالذكاء الاصطناعي؟

 

يعتمد CogVideoX على تقنيات متقدمة لتحويل النص إلى فيديو، مثل:

 

3D VAE:

و هي تقنية لضغط الفيديوهات بكفاءة دون التأثير على جودتها. تعتمد هذه التقنية على التفاف ثلاثي الأبعاد لتحليل الفيديو في الأبعاد الثلاثة (الطول والعرض والوقت) وفصل المعلومات المهمة عن التفاصيل غير الضرورية. هذا يسمح بِضغط الفيديو بشكل فعال مع الحفاظ على جودته العالية.

مثال: تخيّل أن لديك فيديو لشخص يمشي في شارع. تقنية 3D VAE تُمكن من فصل حركة الشخص عن خلفية الفيديو (المباني، الأشجار، إلخ). وبهذا، يتم ضغط الفيديو عن طريق تخزين معلومات حركة الشخص بشكل مُفصل وتخزين خلفية الفيديو بِتفاصيل أقل، مما يُقلل من حجم الملف دون التأثير على جودة الفيديو بشكل ملحوظ.

 

Expert Transformer:

و هي تقنية تساعد البرنامج على فهم العلاقة بين الكلمات والصور المتحركة. تعتمد هذه التقنية على نماذج اللغة الكبيرة ومعالجة اللغة الطبيعية لفهم سياق النص و ربطه بِمشاهد فيديو مُناسبة. وقد تحدثنا أمس عن معاني هذه الأمور بالتفصيل.

اطلع على مفهوم نماذج اللغة الكبيرة و معالجة اللغة الطبيعية.

مثال: إذا كتبت "شخص يُلقي كرة في السماء"، فإن Expert Transformer يُمكنه فهم أن "الشخص" هو فاعل الحركة، و "الكرة" هي المفعول به، و "يُلقي" هو الفعل. وبناءً على ذلك، يُمكنه البحث عن مشاهد فيديو مُناسبة تُطابق هذا الوصف و دمجها لإنشاء فيديو جديد.

وللتأكد من جودة الفيديوهات، يتم تدريب النموذج على مجموعة ضخمة من الفيديوهات عالية الجودة مع استبعاد الفيديوهات منخفضة الجودة. ويُستخدم في هذه العملية نماذج ذكاء اصطناعي أخرى مثل Panda70M و CogView3 و GPT-4 لإنشاء التسميات التوضيحية للفيديوهات.

تعرف أيضًا على موقع Hotshot لإنشاء مقاطع الفيديو.

أداء متفوق في اختبارات توليد الفيديو

أظهرت الاختبارات أن CogVideoX يتفوق على بعض النماذج الأخرى في جودة الفيديوهات التي يُنتجها، مثل Pika و Gen-2 و Open-Sora V1.2. و ذلك طبقا لما نشر في ملف ال pdf الخاص بالورقة البحثية للنموذج على موقع arxiv.

أداء CogVideoX في مجموعة من الاختبارات المعيارية أمام Pika و Gen-2 و Open-Sora V1.2.

حيث تم قياس أداء CogVideoX باستخدام مجموعة من الاختبارات المُعيارية بما في ذلك VBench و Dynamic Quality in Devil و GPT40-MT Score in Chrono-Magic. وأظهرت النتائج أن CogVideoX يتفوق على بعض النماذج الأخرى في مُعظم هذه الاختبارات.

 

كما يعمل المطورون على تحسين النموذج من خلال:

  • زيادة حجم بيانات التدريب لتحسين دقة وفهم النموذج.
  • استكشاف طرق بناء جديدة للنماذج للحصول على نتائج أفضل.
  • تحسين كفاءة ضغط معلومات الفيديو لتقليل حجم الملفات وتسريع العمليات.
  • دمج محتوى النص والفيديو بشكل أفضل لإنشاء فيديوهات أكثر تناسقًا وتعبيرًا.

 

جرّب CogVideoX الآن: تحويل النص إلى فيديو بسهولة

يمكنك التجربة مجانًا على منصة هاجنج فيس.

الاصدار 2B  & الإصدار 5B .

Khaled B.

خبير في الذكاء الاصطناعي يتمتع بخبرة واسعة في تطوير وتنفيذ حلول متقدمة باستخدام أحدث تقنياته. مُتخصص في توظيف هذه الإمكانيات لتحسين الأعمال وتحقيق الأرباح من خلال الابتكار التكنولوجي. لديه شغف لإيجاد استراتيجيات وحلول مبتكرة تساعد الشركات والأفراد على تحقيق أهدافهم من خلال تسخير هذه التكنولوجيا.

Related Posts

توليد و استنساخ أصوات بالعربيةمجانًا مع Fish audio

أطلقت Fish Audio النسخة 1.4 من Fish Speech، النموذج المتقدم لتحويل النص إلى صوت (TTS) و استنساخ وتقليد الأصوات (Voice Cloning)، و الذي يوفر ميزات جديدة تدعم احتياجاتنا كمستخدمين، باحثين،…

اكتشف أداة Audio Overview من جوجل لتحويل النصوص إلى محادثات صوتية

تواصل Google تطوير أدواتها المرتبطة بتقنيات ال AI، وكان من أبرز الابتكارات التي قدمتها مؤخرًا ميزة “Audio Overview” لتحويل النصوص إلى بودكاست صوتي بالذكاء الاصطناعي في تطبيق NotebookLM. هذه الميزة…

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

You Missed

توليد و استنساخ أصوات بالعربيةمجانًا مع Fish audio

  • سبتمبر 16, 2024
توليد و استنساخ أصوات بالعربيةمجانًا مع Fish audio

اكتشف أداة Audio Overview من جوجل لتحويل النصوص إلى محادثات صوتية

  • سبتمبر 14, 2024
اكتشف أداة Audio Overview من جوجل لتحويل النصوص إلى محادثات صوتية

إطلاق قسم أدوات الذكاء الاصطناعي في Arab AI للمستخدمين مجانًا

  • سبتمبر 14, 2024
إطلاق قسم أدوات الذكاء الاصطناعي في Arab AI  للمستخدمين مجانًا

كل ما تحتاج معرفته عن نماذج OpenAI الثورية o1-preview و mini

  • سبتمبر 13, 2024
كل ما تحتاج معرفته عن نماذج OpenAI الثورية o1-preview و mini

إطلاق Reflection 70B | نموذج ذكاء اصطناعي يثير الجدل والاتهامات

  • سبتمبر 12, 2024
إطلاق Reflection 70B | نموذج ذكاء اصطناعي يثير الجدل والاتهامات

إطلاق Pixtral 12B: أول نموذج متعدد الوسائط من Mistral AI

  • سبتمبر 12, 2024
إطلاق Pixtral 12B: أول نموذج متعدد الوسائط من Mistral AI

DeepSeek-V2.5: هل هو مستقبل الذكاء الاصطناعي المفتوح المصدر؟

  • سبتمبر 11, 2024
DeepSeek-V2.5: هل هو مستقبل الذكاء الاصطناعي المفتوح المصدر؟

أوبن إيه آي تخطط لإطلاق نموذج Strawberry الجديد خلال أسبوعين

  • سبتمبر 11, 2024
أوبن إيه آي تخطط لإطلاق نموذج Strawberry الجديد خلال أسبوعين

سياسات محتوى الذكاء الاصطناعي باليوتيوب و أدوات جديدة لحماية المبدعين

  • سبتمبر 8, 2024
سياسات محتوى الذكاء الاصطناعي باليوتيوب و أدوات جديدة لحماية المبدعين