جوجل تنافس OpenAI بأداة Veo 2 للفيديو، و"Whisk" لدمج الصور بالـ AI

جوجل تطلق Veo 2 لتوليد الفيديو و Whisk لإنشاء ومزج الصور بطريقة ابداعية

تشمل تحديثات جوجل ٣ ادوات رئيسية

الإعلان عن Veo 2: تحسينات في الدقة والحركة والواقعية، متاحة حاليًا عبر VideoFX.

إطلاق Whisk: تجربة جديدة تعتمد على إعادة تشكيل الصور باستخدام عناصر متعددة.

تحسينات في أداة الصور Imagen 3: تشمل دقة أعلى وتنوعًا أكبر في الأنماط الفنية.

Veo 2: نموذج متطور لإنشاء الفيديوهات

أعلنت شركة Google DeepMind عن إطلاق Veo 2، الجيل الجديد من نموذجها لإنشاء مقاطع الفيديو بالذكاء الاصطناعي، والذي يهدف لمنافسة نموذج Sora من OpenAI.

ويتميز Veo 2 بقدرات متقدمة على إنتاج مقاطع فيديو تتجاوز دقيقتين بدقة تصل إلى 4K (4096 × 2160 بكسل). هذا ما يجعله يتفوق نظريًا على قدرة Sora الحالية التي تبلغ 1080p لمدة 20 ثانية فقط.

ومع ذلك، تظل تجربة Veo 2 في الوقت الحالي محدودة عبر أداة Google Labs التجريبية VideoFX، حيث تقتصر دقة الفيديوهات على 720p ومدة ثمان ثوانٍ فقط.

وأشارت جوجل عبر مدونتها أن Veo 2 يمتلك قدرات متقدمة لفهم الفيزياء الحقيقية وحركات الكاميرا، لإنشاء مشاهد تحاكي الواقع بدقة.

على سبيل المثال، يمكن للنموذج توليد مشاهد تتضمن ظلالًا واقعية أو حركات ديناميكية لسوائل كصب القهوة في كوب. وبالإضافة إلى ذلك، يدعم Voe 2 مجموعة واسعة من الأساليب الإبداعية، بما في ذلك تأثيرات سينمائية مميزة كالعدسات ذات العمق الضحل أو المشاهد الملتقطة بزوايا واسعة.

وأوضح إيلي كولينز -نائب رئيس المنتجات في DeepMind- أن النموذج الجديد يمكنه التفاعل بشكل أكثر دقة مع المطالب الإبداعية المعقدة، لكنه لا يزال يواجه تحديات فيما يتعلق بالاستمرارية على المدى الطويل أو الحفاظ على تفاصيل الشخصيات عند تغيير الزوايا.

وحاليًا Veo 2 متاحة بنظام قائمة الانتظار، لكن جوجل أكدت أنها ستوسع وصول المستخدمين تدريجيًا هذا الأسبوع. كما تخطط الشركة لإتاحة النموذج عبر منصتها Vertex AI لاحقًا عند استعداده للعمل على نطاق واسع.

وإذا كنت مهتمًا بالاشتراك في هذه القائمة، قم بالذهاب إلى صفحة VideoFX والضغط على على زر الانضمام إلى قائمة الانتظار، وملء بياناتك في مستند (Google docs) مع العلم أن هناك دول محدودة للاختيار من بينها في هذا المستند.

الذهاب إلى VideoFx https://labs.google/fx/tools/video-fx/

Whisk: أداة جديدة يمكنها دمج صورك بالذكاء الاصطناعي

بالتزامن مع إطلاق Veo 2، كشفت جوجل عن أداة تجريبية جديدة تُدعى Whisk، والتي تسمح للمستخدمين بإعادة إنتاج الصور من خلال دمج عناصر متعددة.

وتعتمد Whisk على نموذج Imagen 3 لإنشاء صور جديدة تعتمد على موضوع، مشهد، ونمط محدد عبر صور يتم سحبها وإفلاتها داخل النظام.

واجهة أداة Whisk في Google Labs، تبرز طريقة سحب وإفلات الصورة. الواجهة مترجمة للعربية

وتقوم الأداة بتحليل الصور المُدخلة تلقائيًا وإنشاء وصف نصي مُفصل يساعد على توليد نتائج مبتكرة. ويُمكن أيضًا إدخال وصف نصي مخصص لتحسين النتائج وتحديد التفاصيل المطلوبة، مثل "شخص يجري وراء سيارة."

ويقتصر استخدام الأداة حاليًا على المستخدمين في الولايات المتحدة عبر labs.google/whisk.

وفي تجربة سريعة لها، قمت بمزج بعض الصور، وكانت النتائج رائعة.

وضعت صورة لفتاة تضع طوقًا من الزهور على رأسها، وأضفت صورة أخرى لجهاز كمبيوتر محمول (لابتوب) يظهر على شاشته اسم، حيث سأقوم بدمجهما باستخدام "Whisk".

وقبل الدمج، اخترت صورة مرجعية لنمط كارتون 3D، والتي ستعمل كنمط فني أثناء العملية.

والنتيجة أنه تم مزج صورة الفتاة مع اللابتوب في شكل صور كارتونية ثلاثية الأبعاد. بل واحتفظت هذه الصور أيضًا ببعض التفاصيل الهامة مثل طوق الورود على رأس الفتاة، وظل الاسم على شاشة اللابتوب موجودًا في بعضها.

ولإدخال مزيد من التعديلات وإضفاء الحيوية على الصور التي تم توليدها، أدخلت مطالبة نصية لجعل الفتاة تأكل آيس كريم، وحصلت على نتائج دقيقة.

نتيجة دمج الصور بالذكاء الاصطناعي باستخدام أداة Whisk الجديدة على Google Labs

ورغم هذه القدرات، أوضحت جوجل أن النتائج قد تختلف أحيانًا عن التوقعات، حيث قد يختلف حجم الشخص أو لونه أو ملامحه، لكنها أكدت أن المستخدمين يمكنهم تعديل الأوصاف النصية للوصول إلى النتيجة المرجوة

Imagen 3: تحسينات في إنشاء الصور

على صعيد آخر، يأتي Imagen 3 بتحديثات تجعل من إنتاج الصور أكثر واقعية وتنوعًا. حيث يدعم النموذج الجديد أنماطًا متعددة مثل الواقعية الفنية، والرسوم المتحركة، والأساليب التجريدية، والأنمي.

وقد أشارت Google إلى أن هذه التحسينات على Imagen 3 تجعله قادرًا على تنفيذ التعليمات بشكل أكثر دقة، وبالتالي تحكُّم أكبر للمستخدمين بالتفاصيل النهائية للصورة.

الجدير بالذكر أن Imagen 3 أصبح متاحًا للجميع مجانًا منذ النصف الأول من أكتوبر الماضي.

وبشأن سلامة الاستخدام، أكدت الشركة أن جميع مقاطع الفيديو والصور المُنتَجة باستخدام Veo 2 وImagen 3 تتضمن علامات مائية غير مرئية (SynthID) لضمان تمييز المحتوى الاصطناعي عن المحتوى الأصلي.

بالختام، فإن هذه التحديثات تعطينا نبذة عن ما قد ينتظرنا مع دخول العام الجديد من تطورات على مستوى صناعة المحتوى المرئي من صور وفيديوهات، مشيرة لمستقبل أكثر تطورًا في مجال الذكاء الاصطناعي الإبداعي.