Seedance 1.0: أداة ByteDance للفيديو تتصدر التقييمات وتتحدى Sora و Veo

مشهد ترويجي لنموذج Seedance 1.0 من بايت دانس، تظهر أشخاصًا يركضون وسط انفجارات مساحيق ملونة زاهية في بيئة حضرية، مع شعار "Seedance 1.0 BY BYTEDANCE" بارزًا، ترمز للإبداع في توليد الفيديو بالذكاء الاصطناعي.

كشفت شركة ByteDance، العملاقة الصينية وراء تطبيق تيك توك، بهدوء عن نموذجها المبتكر Seedance 1.0.

هذا النموذج، الذي ظهر دون ضجة إعلامية كبيرة، سرعان ما أثبت قدرات استثنائية، متصدرًا قوائم التقييم المستقلة في مهام تحويل النص إلى فيديو والصورة إلى فيديو، ومطرحًا نفسه كمنافس جاد لنماذج معروفة مثل Veo 3 من جوجل وSora من أوبن أيه آي.

قدرات متقدمة لنموذج Seedance 1.0 وسرعة ملحوظة

أشارت التقارير والأوراق البحثية الصادرة عن ByteDance إلى أن "Seedance 1.0" تم تصميمه لإنتاج مقاطع فيديو عالية الدقة، مع دعم لقطات متعددة ضمن الفيديو الواحد، كل ذلك مع الحفاظ على سرعة استدلال عالية والتزام دقيق بتعليمات المستخدم.

ووفقًا لما أعلنته الشركة، فإن التقنية الأساسية للنموذج تعمل على فصل الطبقات المكانية والزمانية مع ترميز موضعي متعدد الوسائط ومتداخل.

يسمح هذا التصميم للنموذج بتعلم مهام تحويل النص إلى فيديو والصورة إلى فيديو ضمن إطار عمل واحد. وكذلك يدعم بشكل أصلي إنشاء مقاطع فيديو متعددة اللقطات مع انتقالات سلسة بين المشاهد وتمثيل ثابت للعناصر.

كما أن أحد أبرز جوانب قوة "Seedance 1.0" يكمن في سرعته وكفاءته.

وأفادت بايت دانس أن النموذج يستطيع إنشاء مقطع فيديو مدته خمس ثوانٍ بدقة 1080 بكسل في غضون 41.4 ثانية فقط باستخدام معالج NVIDIA-L20 واحد.

وتتفوق هذه السرعة، بحسب الشركة، على العديد من النماذج المنافسة.

بالإضافة إلى ذلك، ذكرت الشركة أنها نجحت في خفض التكاليف وزمن الانتقال، الأمر الذي قد يدفع باستخدامات توليد الفيديو نحو تطبيقات الزمن الحقيقي.

ولم يتوقف الأمر عند هذا الحد، بل تصدر النموذج أيضًا قوائم منصة Artificial Analysis لمهام توليد الفيديو، متفوقًا على MiniMax Hailuo 02 وGoogle Veo 3.

ترتيب Artificial Analysis Video Arena لنماذج تحويل الصور إلى فيديو.

السبب وراء تميز نموذج الفيديو الصيني الجديد

يرجع جزء كبير من أداء "Seedance 1.0" المتميز إلى خط أنابيب البيانات الخاص ببايت دانس.

وأوضحت الشركة أنها قامت بتجميع مجموعة بيانات واسعة النطاق ومتعددة المصادر مع تسميات توضيحية ثنائية اللغة مفصلة، بالإضافة إلى تعليقات وصفية كثيفة للحركة والسمات الثابتة. وأُعطيت الأولوية لدقة التسميات التوضيحية لتحسين الالتزام بالموجهات أثناء عملية التوليد.

واقترن هذا بنظام تعلم معزز جديد يستخدم ثلاثة نماذج recompense تركز على المحاذاة الأساسية، جودة الحركة، والجماليات.

وفي سياق المقارنات، أشارت الورقة البحثية الخاصة بنموذج "Seedance 1.0" إلى أنه خلال تقييمات على مقياس "SeedVideoBench"، الذي صُمم بالتعاون مع مخرجي أفلام، أظهر النموذج درجات أعلى في اتباع الموجهات وواقعية الحركة مقارنة بنماذج أخرى.

ولفتت الورقة البحثية الانتباه إلى أنه في مهام تحويل الصورة إلى فيديو، احتفظ "سيدانس 1.0" بتناسق بصري عالٍ مع الإطار المُدخل، بينما أظهرت بعض النماذج المنافسة تغييرات عرضية في الإضاءة والملمس.

مزايا إضافية

من بين الميزات التي أبرزتها التقارير حول "Seedance 1.0" قدرته على التعامل مع التحولات المعقدة في المشاهد ورواية القصص متعددة اللقطات مع الحفاظ على تمثيل متسق للموضوع.

كما يستطيع النموذج تفسير مجموعة متنوعة من الأساليب الفنية بدقة، بدءًا من الواقعية الفوتوغرافية ومرورًا بأنماط السايبربانك والرسوم التوضيحية، وصولًا إلى القوام الشبيه باللباد.

وعلى الرغم من هذه القدرات البصرية القوية، تجدر الإشارة إلى أن "سيدانس 1.0" حاليًا لا يدعم توليد الصوت، وهي ميزة تتوافر في بعض النماذج المنافسة مثل "Veo 3" الذي قدم توليفًا صوتيًا متزامنًا مع الفيديو.

وتخطط ByteDance لدمج "Seedance 1.0" في منصاتها الخاصة مثل Doubao وJimeng خلال يونيو 2025، بهدف أن يصبح أداة إنتاجية رئيسية لتحسين سير العمل الاحترافي والمهام الإبداعية اليومية.

الوصول إلى صفحة النموذج.