Sora: كيف يعمل نموذج OpenAI الجديد لإنشاء الفيديو وما هي حدوده؟

أطلقت شركة OpenAI أمس -الاثنين- نموذجها الجديد لإنشاء الفيديو من النص -والمعروف باسم Sora- لمشتركي خطط ChatGPT Plus وPro.

تم تقديم Sora لأول مرة في فبراير الماضي ضمن مرحلة استعراض بحثية اقتصرت على مختبري السلامة. لكن الإصدار الجديد، المعروف بـSora Turbo، يستطيع إنشاء مقاطع فيديو تصل مدتها إلى 20 ثانية بجودة تصل إلى 1080p وبأبعاد مختلفة، بما في ذلك الشاشة العريضة والطولية والمربعة.

بالإضافة إلى ذلك، قامت الشركة بوضعه في منصة مستقلة تسمح لمشتركي الخطط المذكورة سلفًا بالبدء في استخدامه دون تكاليف إضافية.

التفاصيل التقنية في Sora

في بث مباشر، استعرض فريق OpenAI بعض التفاصيل التقنية حول Sora، بما في ذلك الأدوات المتاحة مثل واجهة Storyboard لإنشاء تسلسل الفيديو، وأداة Blend لدمج مقطعين فيديو في واحد جديد يحافظ على عناصر كليهما. كما يمكن للمستخدمين استخدام أدوات Loop وRe-cut لإجراء تعديلات إضافية على المقاطع.

وقال أحد أعضاء الفريق التقني (ويل بيبلز) خلال البث المباشر: "هذا الإصدار المبكر من Sora ليس مثاليًا، لكنه يمثل خطوة هامة في تعزيز الإبداع البشري".

على الصعيد التقني، يعتمد Sora على تقنية الانتشار ونماذج المحولات (Transformers)، مستفيدًا من تقنيات إعادة الترجمة التي طورتها OpenAI في نموذج DALL-E 3.

وقد أوضحت الشركة أن النموذج تم تدريبه باستخدام بيانات متنوعة، بما في ذلك بيانات عامة وشراكات مع منصات مثل Shutterstock وPond5، بالإضافة إلى بيانات مخصصة تم جمعها خصيصًا لهذا الغرض.

ورغم الإمكانيات الكبيرة، فإن النموذج الجديد غير متاح في دول الاتحاد الأوروبي وسويسرا والمملكة المتحدة، بسبب تحديات تنظيمية تتعلق بالخصوصية. وأكد المدير التنفيذي لشركة OpenAI، سام ألتمان، أنهم يعملون على معالجة هذه التحديات، دون تحديد إطار زمني لإطلاق النموذج في هذه الدول.

مخاوف تتعلق بسوء الاستخدام

لتجنب إساءة استخدام التقنية، حظرت OpenAI إنشاء مقاطع فيديو تحتوي على مواد ضارة مثل الإساءة للأطفال أو التزييف العميق الجنسي. كما فرضت قيودًا على تحميل صور الأشخاص في المرحلة الأولى، على أن يتم توسيع هذه الإمكانية لاحقًا بعد تحسين تدابير الحماية.

وأكد روهان ساهائي (قائد منتج سورا) أن الشركة تسعى لتحقيق توازن بين الإبداع وحماية المستخدمين، مشيرًا إلى أن الاعتدال في المحتوى سيكون تحديًا مستمرًا.

نموذج التسعير في OpenAI Sora

يتطلب إنشاء الفيديوهات باستخدام Sora نظامًا يعتمد على تخصيص الاعتمادات بناءً على الجودة والمدة.

فعلى سبيل المثال، يتم خصم 20 نقطة عند إنتاج عمل بدقة 480 بكسل لمدة 5 ثوانٍ، بينما ترتفع التكلفة إلى 40 نقطة إذا زادت المدة إلى 10 ثوانٍ.

أما عند اختيار دقة 1080 بكسل، فيتم خصم 200 نقطة لتوليد مقطع مدته 5 ثوانٍ، و600 نقطة إذا استمرت المدة إلى 10 ثوانٍ.

ويحصل مشتركو خطة Plus على 1,000 اعتماد شهريًا، ويمكنهم بناء مشاريع بجودة تصل إلى 720p ولمدة لا تتجاوز 5 ثوانٍ.

بينما تقدم خطة Pro مزايا متقدمة تشمل 10,000 نقطة شهريًا، وإمكانية تصميم أعمال بجودة 1080p ولمدة تصل إلى 20 ثانية. كما تسمح هذه الخطة لمشتركيها بإنتاج خمسة مقاطع في وقت واحد وتحميلها دون علامة مائية. بالإضافة إلى خيار توليد عدد غير محدود من المحتوى ذي الأولوية المنخفضة، والذي يتم إنتاجه بوتيرة مريحة (Relaxed videos).

وفي الوقت الحالي، لا تقدم OpenAI خيارًا لشراء اعتمادات إضافية.

وأوضحت الشركة أن جميع الفيديوهات التي يتم إنشاؤها باستخدام Sora تحتوي على بيانات وصفية وفق معايير C2PA، مما يساعد في تحديد المصدر بسهولة.

كما أضافت OpenAI تقنيات إعادة كتابة النصوص لتجنب إنشاء محتوى مستوحى من أسلوب فنانين أحياء، استجابةً لمخاوف حقوق النشر.

طلب يتجاوز التوقعات

من الواضح أن نموذج توليد الفيديو الجديد فاق التوقعات بشكل كبير، ما دفع سام ألتمان إلى إعلان مفاجئته من هذا الأمر.

فقد أشار في حسابه على منصة X إلى أن الشركة قللت بشكل كبير من تقدير الطلب على Sora، كما أوضح أن الأمر سيستغرق بعض الوقت قبل أن تصبح الأداة متاحة للجميع.

تغريدة سام ألتمان في حسابه على X مشيرًا لقلة التقدير الضخمة للطلب على Sora! مع العمل على إتاحته للجميع مستقبلاً

من جهة أخرى، أثارت بعض القيود التي فرضتها OpenAI ردود فعل متباينة، حيث تسرب النموذج إلى منصات مثل Hugging Face نتيجة لعدم رضا بعض المستخدمين عن سياسات الشركة.

ومع ذلك، يبقى Sora خطوة متقدمة في مواجهة المنافسين في مثل Runway وLuma AI، حيث يوفر ميزات تنافسية في سوق توليد الفيديوهات بالذكاء الاصطناعي.

الجدير بالذكر أن إطلاق مولد الفيديو الجديد يأتي كجزء من سلسلة إعلانات الشركة "OpenAI12DAY" ذات الطابع الاحتفالي، والتي تم الإعلان في سياقها على مجموعة من التحديثات، مثل إطلاق النسخة الرئيسية من نموذج التفكير المتقدم o1، متضمنًا إصدارًا متقدمًا وهو o1 Pro لمشتركي الفئة الجديدة ChatGPT Pro.