Qwen-VLo: أحدث نماذج علي بابا لتوليد وتعديل الصور بال AI

كشفت مجموعة علي بابا القابضة عن أحدث ابتكاراتها، وهو نموذج الذكاء الاصطناعي «Qwen-VLo».

يقدم هذا النموذج قدرات متقدمة في فهم الصور وتوليدها وتعديلها بدقة عالية، استجابةً للأوامر النصية أو المدخلات البصرية، في خطوة تؤكد سعي عملاق التجارة الإلكترونية الصيني لترسيخ مكانته كقوة رائدة في مجال الذكاء الاصطناعي.

في هذا السياق، أعلنت الشركة أن النموذج الجديد، الذي يعتبر ترقية شاملة للنسخ السابقة، يستطيع الآن توليد الصور من النصوص أو من صور أخرى، مع دعمه للغات متعددة تشمل الصينية والإنجليزية.

قدرات تفوق التوقعات..وتقنية التوليد التدريجي

أوضحت الشركة في منشور لها أن «هذا النموذج المطور لا يقتصر على ‘فهم’ العالم المرئي فحسب، بل يولد إبداعات عالية الجودة بناءً على ذلك الفهم».

وكمثال على ذلك، يستطيع المستخدم ببساطة أن يكتب أمرًا مثل «ارسم صورة لقطة لطيفة»، أو أن يرفع صورة لقطة ويطلب «أضف قبعة على رأس القطة» لتعديل الصورة فورًا.

صورة مصغرة لفيديو يشرح قدرات وكيفية استخدام نموذج Qwen-VLo لتوليد وتعديل الصور، مع شعار الدب الخاص بالنموذج وهو يركب دراجة هوائية

ومن أبرز الخصائص التي يقدمها Qwen-VLo هي تقنية «التوليد التدريجي«، وهي آلية تجعل عملية إنشاء الصورة مرئية للمستخدم خطوة بخطوة، من اليسار إلى اليمين ومن الأعلى إلى الأسفل.

هذا الأسلوب لا يحسن من الجودة البصرية النهائية فحسب، بل يمنح المستخدم تجربة إبداعية أكثر مرونة وقابلية للتحكم.

كيف تستفيد من قدرات Qwen-VLo

تم تصميم Qwen-VLo ليكون أداة متعددة الاستخدامات، فهو يدعم تنسيقات إدخال وإخراج متنوعة، الأمر الذي يمنح المستخدمين حرية أكبر في العمل.

وتجعله هذه المرونة مناسبًا لمجموعة واسعة من المهام الإبداعية، مثل تصميم الملصقات، والرسوم التوضيحية، واللافتات الإعلانية لمواقع الويب، وأغلفة لمنصات التواصل الاجتماعي.

وعلى عكس النماذج التقليدية، يستطيع Qwen-VLo الاستجابة للأوامر المفتوحة بمرونة فائقة.

ويمكن للمستخدمين تقديم تعليمات إبداعية باللغة الطبيعية، مثل «غير هذه اللوحة إلى أسلوب فان جوخ» أو «أضف سماء مشمسة إلى هذه الصورة»، وسيقوم النموذج بتنفيذها بدقة.

طموح الشركة والتنافس مع عمالقة الذكاء الاصطناعي

يأتي إطلاق هذا النموذج في وقت تضاعف فيه علي بابا استثماراتها في الذكاء الاصطناعي والحوسبة السحابية.

ففي فبراير الماضي، تعهد الرئيس التنفيذي إيدي وو بأن الهدف الأساسي للشركة الآن هو الوصول إلى «الذكاء الاصطناعي العام»، وهو الطموح الأسمى في هذه الصناعة لبناء أنظمة بقدرات فكرية توازي القدرات البشرية.

وبهذا الإصدار، تدخل علي بابا في منافسة مباشرة مع عمالقة التكنولوجيا العالميين والمحليين، مثل «DeepSeek» و»ByteDance»، الذين يسعون بدورهم لتقديم نماذج متعددة الوسائط قادرة على تفسير أنواع مختلفة من البيانات.

هذا التحرك يعكس استراتيجية الشركة القائمة على تبني نهج المصادر المفتوحة لجذب قاعدة أوسع من المستخدمين والمطورين، وتعزيز موقعها في قلب ثورة الذكاء الاصطناعي العالمية.

مقارنة Qwen-VLo مع منافسيه مثل GPT-4o؟

فكرة دمج قدرات توليد وتعديل الصور مَعًا ليست الأولى مع Qwen-VLo.

فقد تبنى العديد من نماذج الذكاء الاصطناعي هذا النهج مثل:

إمكانية إنشاء وتحرير الصور في GPT-4o
نموذج Flux.1 Kontext
قدرات تصميم وتعديل الصور في Gemini
خاصية Edit with Grok في نموذج جروك والذي يمكنه أيضًا إنتاج الصور.

لكن المميز في إصدار على بابا الجديد هو:

١. المصدر المفتوح (Open Source): وهذه هي النقطة الجوهرية.

على عكس النماذج التجارية المغلقة مثل GPT-4o وGemini، تتبنى علي بابا نهج المصدر المفتوح مع عائلة نماذج Qwen. يسمح ذلك للمطورين والباحثين حول العالم باستخدام النموذج وتعديله والبناء عليه بحرية.

٢. التجربة التفاعلية والأداء الدقيق

يركز النموذج على تقديم ميزات فريدة في تجربة الاستخدام، مثل تقنية «التوليد التدريجي المرئي» التي تتيح للمستخدم مشاهدة عملية تكون الصورة خطوة بخطوة.

Qwen-VLo: أحدث نماذج علي بابا لتوليد وتعديل الصور بال AI

قدرات تفوق التوقعات..وتقنية التوليد التدريجي

كيف تستفيد من قدرات Qwen-VLo

طموح الشركة والتنافس مع عمالقة الذكاء الاصطناعي

مقارنة Qwen-VLo مع منافسيه مثل GPT-4o؟

مقالات ذات صلة

15 برومبت جاهز لتحويل صورك إلى مشاهد شتوية ساحرة

تسريبات نانو بنانا 2: ميزات ثورية وتقنيات جديدة مع موعد الإطلاق المنتظر

تعرّف على Affinity من Canva: تجربة تصميم احترافية مجانية وسهلة الاستخدام للجميع

ترند الصور الفرعونية: برومبتات جاهزة لتحويل الصورة إلى ترند اللبس الفرعوني.. خطوات سهلة ومجانية

التعليقات

لا توجد تعليقات بعد