QVQ-Max: نموذج علي بابا المجاني بقدرات التفكير المتقدم لتحليل الصور والفيديو

كشفت شركة علي بابا عن الإصدار الأول من نموذج QVQ-Max، وهو نموذج متقدم للمنطق البصري يأتي كجزء من سلسلة Qwen2.5-Max.

يسمح هذا النموذج بتحليل الصور ومقاطع الفيديو، ليس فقط لفهم محتواها، بل لاستخلاص استنتاجات عقلانية.

وكذلك يعمل على تقديم حلول دقيقة لمجموعة واسعة من التحديات، بدءًا من حل المسائل الرياضية المعقدة، مرورًا ببرمجة الأكواد، ووصولًا إلى الأعمال الفنية.

لماذا تحتاج النماذج إلى المنطق البصري؟

لطالما اعتمدت أنظمة الذكاء الاصطناعي على المدخلات النصية، حيث يتم استخدامها في توليد المقالات، تحليل البيانات، والإجابة عن الأسئلة.

ولكن في الواقع، كمية هائلة من المعلومات تأتي في شكل صور ورسوم بيانية ومقاطع مرئية.

على سبيل المثال، لا يمكن لاختبار مدى سلامة تصميم معماري أن يعتمد فقط على الأوصاف النصية؛ فالنظر في المخطط البصري ضروري لفهم التفاصيل الدقيقة.

وهنا يأتي دور QVQ-Max الذي لا يقتصر على «الرؤية»، بل يتعداها إلى «التحليل» و»التفكير».

القدرات الرئيسية لـ QVQ-Max

وفقًا لشركة Alibaba عبر صفحة النموذج، يتمتع QVQ-Max بثلاث مهارات أساسية:

1. الملاحظة الدقيقة: يستطيع النموذج تحليل الصور بعمق، سواء كانت مخططات تقنية معقدة أو صورًا يومية عادية، حيث يمكنه التعرف على العناصر البصرية بدقة، بما في ذلك النصوص المدمجة في الصور.

2. التحليل والاستنتاج: لا يقتصر دور النموذج على التعرف على العناصر البصرية، بل يمكنه إجراء استنتاجات منطقية بناءً على المعلومات المتاحة.

فعلى سبيل المثال، يمكنه حل مسألة هندسية بناءً على شكلها الهندسي المرسوم أو توقع الحدث القادم في مقطع فيديو معين.

3. التطبيقات المتنوعة: يمتد استخدام QVQ-Max إلى مجالات متعددة، من تحليل البيانات والبرمجة، إلى ابتكار الأعمال الفنية وتقديم الاقتراحات الإبداعية، مثل:

تطوير مخططات ورسومات متقدمة بناءً على مدخلات المستخدم.
تقديم توصيات للأزياء بناءً على صور الملابس، أو إرشادات طهي بناءً على صور المكونات المتوفرة.

QVQ-Max يفسر قراءة صورة كف إنسان، مثال توضيحي مرجعي — تعرض علي بابا مثال على تفسير قراءة صورة كف إنسان (للمرجع فقط)

التحديات والتطوير المستقبلي

ولكن على الرغم من التقدم الملحوظ في QVQ-Max، لا يزال هناك مجال للتحسين، حيث تخطط الشركة للتركيز على:

تحسين دقة الملاحظة: عبر تطوير تقنيات أكثر تقدمًا للتحقق من صحة المعلومات المستخلصة من المحتوى البصري.
توسيع نطاق المهام: بحيث يتمكن النموذج من تنفيذ مهام متعددة الخطوات مثل تشغيل الأجهزة الإلكترونية والتفاعل مع التطبيقات.
تحسين تجربة المستخدم: من خلال تحسين أساليب التفاعل لتشمل أكثر من مجرد النصوص، مثل التعرف على الأوامر الصوتية أو الاستفادة من تقنيات التوليد البصري.