Arab AI: الذكاء الاصطناعي بالعربية
AI Arab AI Logo
لقطة شاشة لواجهة نموذج الذكاء الاصطناعي Qwen2.5-Max، تُظهر كيفية التفاعل مع قدرات QVQ-Max عبر خيارات مثل البحث، التفكير، إنشاء الصور والأكواد.

QVQ-Max: نموذج علي بابا المجاني بقدرات التفكير المتقدم لتحليل الصور والفيديو

١ شوال ١٤٤٦ هـ / ٣٠ مارس ٢٠٢٥
2 دقائق

كشفت شركة علي بابا عن الإصدار الأول من نموذج QVQ-Max، وهو نموذج متقدم للمنطق البصري يأتي كجزء من سلسلة Qwen2.5-Max.

يسمح هذا النموذج بتحليل الصور ومقاطع الفيديو، ليس فقط لفهم محتواها، بل لاستخلاص استنتاجات عقلانية. 

Advertisement

وكذلك يعمل على تقديم حلول دقيقة لمجموعة واسعة من التحديات، بدءًا من حل المسائل الرياضية المعقدة، مرورًا ببرمجة الأكواد، ووصولًا إلى الأعمال الفنية.

لماذا تحتاج النماذج إلى المنطق البصري؟

لطالما اعتمدت أنظمة الذكاء الاصطناعي على المدخلات النصية، حيث يتم استخدامها في توليد المقالات، تحليل البيانات، والإجابة عن الأسئلة.

ولكن في الواقع، كمية هائلة من المعلومات تأتي في شكل صور ورسوم بيانية ومقاطع مرئية.

على سبيل المثال، لا يمكن لاختبار مدى سلامة تصميم معماري أن يعتمد فقط على الأوصاف النصية؛ فالنظر في المخطط البصري ضروري لفهم التفاصيل الدقيقة.

Advertisement

وهنا يأتي دور QVQ-Max الذي لا يقتصر على “الرؤية”، بل يتعداها إلى “التحليل” و”التفكير”.

القدرات الرئيسية لـ QVQ-Max

وفقًا لشركة Alibaba عبر صفحة النموذج، يتمتع QVQ-Max بثلاث مهارات أساسية:

1. الملاحظة الدقيقة: يستطيع النموذج تحليل الصور بعمق، سواء كانت مخططات تقنية معقدة أو صورًا يومية عادية، حيث يمكنه التعرف على العناصر البصرية بدقة، بما في ذلك النصوص المدمجة في الصور.

2. التحليل والاستنتاج: لا يقتصر دور النموذج على التعرف على العناصر البصرية، بل يمكنه إجراء استنتاجات منطقية بناءً على المعلومات المتاحة.

Advertisement

فعلى سبيل المثال، يمكنه حل مسألة هندسية بناءً على شكلها الهندسي المرسوم أو توقع الحدث القادم في مقطع فيديو معين.

3. التطبيقات المتنوعة: يمتد استخدام QVQ-Max إلى مجالات متعددة، من تحليل البيانات والبرمجة، إلى ابتكار الأعمال الفنية وتقديم الاقتراحات الإبداعية، مثل:

  • تطوير مخططات ورسومات متقدمة بناءً على مدخلات المستخدم.
  • تقديم توصيات للأزياء بناءً على صور الملابس، أو إرشادات طهي بناءً على صور المكونات المتوفرة.
QVQ-Max يفسر قراءة صورة كف إنسان، مثال توضيحي مرجعي
تعرض علي بابا مثال على تفسير قراءة صورة كف إنسان (للمرجع فقط)

التحديات والتطوير المستقبلي

ولكن على الرغم من التقدم الملحوظ في QVQ-Max، لا يزال هناك مجال للتحسين، حيث تخطط الشركة للتركيز على:

  • تحسين دقة الملاحظة: عبر تطوير تقنيات أكثر تقدمًا للتحقق من صحة المعلومات المستخلصة من المحتوى البصري.
  • توسيع نطاق المهام: بحيث يتمكن النموذج من تنفيذ مهام متعددة الخطوات مثل تشغيل الأجهزة الإلكترونية والتفاعل مع التطبيقات.
  • تحسين تجربة المستخدم: من خلال تحسين أساليب التفاعل لتشمل أكثر من مجرد النصوص، مثل التعرف على الأوامر الصوتية أو الاستفادة من تقنيات التوليد البصري.

استخدام QVQ-Max مجانًا

تتيح الشركة تجربة قدراته المدمجة مع نموذج Qwen2.5-Max بشكل مجاني عبر منصة chat.qwen.ai، حيث يمكنك رفع فيديوهاتك وصورك والبدء في طرح الأسئلة.

تعرف على كيفية استخدام Qwen2.5-Max مجانًا

مقالات ذات صلة

التعليقات

لا توجد تعليقات بعد

كن أول من يعلق على هذا المحتوى.