دليل مواقع وأدوات و تطبيقات الذكاء الاصطناعي

QVQ-Max: نموذج علي بابا المجاني بقدرات التفكير المتقدم لتحليل الصور والفيديو

كشفت شركة علي بابا عن الإصدار الأول من نموذج QVQ-Max، وهو نموذج متقدم للمنطق البصري يأتي كجزء من سلسلة Qwen2.5-Max.

يسمح هذا النموذج بتحليل الصور ومقاطع الفيديو، ليس فقط لفهم محتواها، بل لاستخلاص استنتاجات عقلانية. 

وكذلك يعمل على تقديم حلول دقيقة لمجموعة واسعة من التحديات، بدءًا من حل المسائل الرياضية المعقدة، مرورًا ببرمجة الأكواد، ووصولًا إلى الأعمال الفنية.

لماذا تحتاج النماذج إلى المنطق البصري؟

لطالما اعتمدت أنظمة الذكاء الاصطناعي على المدخلات النصية، حيث يتم استخدامها في توليد المقالات، تحليل البيانات، والإجابة عن الأسئلة.

ولكن في الواقع، كمية هائلة من المعلومات تأتي في شكل صور ورسوم بيانية ومقاطع مرئية.

على سبيل المثال، لا يمكن لاختبار مدى سلامة تصميم معماري أن يعتمد فقط على الأوصاف النصية؛ فالنظر في المخطط البصري ضروري لفهم التفاصيل الدقيقة.

وهنا يأتي دور QVQ-Max الذي لا يقتصر على "الرؤية"، بل يتعداها إلى "التحليل" و"التفكير".

القدرات الرئيسية لـ QVQ-Max

وفقًا لشركة Alibaba عبر صفحة النموذج، يتمتع QVQ-Max بثلاث مهارات أساسية:

1. الملاحظة الدقيقة: يستطيع النموذج تحليل الصور بعمق، سواء كانت مخططات تقنية معقدة أو صورًا يومية عادية، حيث يمكنه التعرف على العناصر البصرية بدقة، بما في ذلك النصوص المدمجة في الصور.

2. التحليل والاستنتاج: لا يقتصر دور النموذج على التعرف على العناصر البصرية، بل يمكنه إجراء استنتاجات منطقية بناءً على المعلومات المتاحة.

فعلى سبيل المثال، يمكنه حل مسألة هندسية بناءً على شكلها الهندسي المرسوم أو توقع الحدث القادم في مقطع فيديو معين.

3. التطبيقات المتنوعة: يمتد استخدام QVQ-Max إلى مجالات متعددة، من تحليل البيانات والبرمجة، إلى ابتكار الأعمال الفنية وتقديم الاقتراحات الإبداعية، مثل:

  • تطوير مخططات ورسومات متقدمة بناءً على مدخلات المستخدم.
  • تقديم توصيات للأزياء بناءً على صور الملابس، أو إرشادات طهي بناءً على صور المكونات المتوفرة.
QVQ-Max يفسر قراءة صورة كف إنسان، مثال توضيحي مرجعي
تعرض علي بابا مثال على تفسير قراءة صورة كف إنسان (للمرجع فقط)

التحديات والتطوير المستقبلي

ولكن على الرغم من التقدم الملحوظ في QVQ-Max، لا يزال هناك مجال للتحسين، حيث تخطط الشركة للتركيز على:

  • تحسين دقة الملاحظة: عبر تطوير تقنيات أكثر تقدمًا للتحقق من صحة المعلومات المستخلصة من المحتوى البصري.
  • توسيع نطاق المهام: بحيث يتمكن النموذج من تنفيذ مهام متعددة الخطوات مثل تشغيل الأجهزة الإلكترونية والتفاعل مع التطبيقات.
  • تحسين تجربة المستخدم: من خلال تحسين أساليب التفاعل لتشمل أكثر من مجرد النصوص، مثل التعرف على الأوامر الصوتية أو الاستفادة من تقنيات التوليد البصري.

استخدام QVQ-Max مجانًا

تتيح الشركة تجربة قدراته المدمجة مع نموذج Qwen2.5-Max بشكل مجاني عبر منصة chat.qwen.ai، حيث يمكنك رفع فيديوهاتك وصورك والبدء في طرح الأسئلة.

تعرف على كيفية استخدام Qwen2.5-Max مجانًا

Related Posts

OpenAI تتيح توليد الصور مجانًا عبر ChatGPT لجميع المستخدمين
  • أبريل 1, 2025

أعلنت شركة OpenAI عن إتاحة ميزة توليد الصور داخل ChatGPT لجميع المستخدمين، بعد أن كانت مقتصرة في البداية على المشتركين في…

رداً على ديب سيك.. OpenAI تعلن عن نموذج ذكاء اصطناعي قادم مفتوح الوزن
  • أبريل 1, 2025

أعلنت شركة أوبن إيه آي عن نيتها إطلاق نموذج ذكاء اصطناعي بوزن مفتوح خلال الأشهر القادمة، في خطوة تعكس تحولاً في…

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

آخر المقالات

OpenAI تتيح توليد الصور مجانًا عبر ChatGPT لجميع المستخدمين

    OpenAI تتيح توليد الصور مجانًا عبر ChatGPT لجميع المستخدمين

    رداً على ديب سيك.. OpenAI تعلن عن نموذج ذكاء اصطناعي قادم مفتوح الوزن

      رداً على ديب سيك.. OpenAI تعلن عن نموذج ذكاء اصطناعي قادم مفتوح الوزن

      Gen-4: Runway تطلق أحد أكثر أدوات توليد الفيديو بالذكاء الاصطناعي تطورًا

        Gen-4: Runway تطلق أحد أكثر أدوات توليد الفيديو بالذكاء الاصطناعي تطورًا