دليل مواقع وأدوات و تطبيقات الذكاء الاصطناعي

Aya Vision AI: نموذج Cohere الأفضل في فئته ومجاني عبر واتساب

أعلنت شركة Cohere AI عن إطلاق نموذجها الجديد Aya Vision، الذي وصفته بأنه الأفضل في فئته.

النموذج متعدد الوسائط، حيث يمكنه تحليل الصور، وكتابة أوصاف لها، والإجابة عن الأسئلة المتعلقة بها، بالإضافة إلى ترجمة النصوص وتقديم ملخصات بـ 23 لغة مختلفة.

كما أتاحته الشركة مجانًا عبر تطبيق واتساب، مؤكدة أنه يمثل "خطوة مهمة نحو إتاحة التطورات التقنية للباحثين حول العالم".

وأوضحت كوهير في منشور لها أن أحد أكبر التحديات التي تواجه الذكاء الاصطناعي هو تفاوت الأداء عبر اللغات المختلفة، وهو أمر يزداد وضوحًا في المهام التي تتطلب فهمًا متكاملاً للنصوص والصور معًا.

وأضافت أن Aya Vision تم تصميمه خصيصًا للمساهمة في سد هذه الفجوة.

مثال على استخدام Aya Vision على واتساب: تحليل صورة
مثال على استخدام النموذج على واتساب في تحليل صورة

تفوق على المنافسين بحجم أصغر

يتوفر Aya Vision بنسختين: Aya Vision 32B وAya Vision 8B.

ووفقًا لما أعلنته كوهير، فإن النسخة الأقوى، 32B، تتفوق على نماذج ضعف حجمها، بما في ذلك Llama-3.2 90B Vision من Meta، في بعض اختبارات الفهم البصري.

أما النسخة الأصغر، 8B، فتتفوق في الأداء على بعض النماذج التي تفوقها حجمًا بعشرة أضعاف.

وقد طرحت Cohere النموذجين عبر منصة Hugging Face بموجب ترخيص Creative Commons 4.0، مما يسمح باستخدامهما لأغراض البحث، ولكن ليس في التطبيقات التجارية.

تدريب يعتمد على البيانات الاصطناعية

فيما يتعلق بتدريب النموذج، أوضحت الشركة أنها اعتمدت على مجموعة متنوعة من البيانات الإنجليزية، التي تمت ترجمتها لإنشاء تعليقات توضيحية اصطناعية.

هذه التعليقات، التي تُعرف أيضًا بالتسميات أو العلامات، تُستخدم لمساعدة الذكاء الاصطناعي على فهم البيانات بشكل أفضل.

على سبيل المثال، عند تدريب نموذج على التعرف على الصور، يمكن أن تتضمن التعليقات علامات تحدد محتويات الصورة أو تسميات توضح العناصر الموجودة فيها.

قدرة Aya Vision على تنفيذ مجموعة من مهام الفهم البصري.
قدرة Aya Vision على تنفيذ مجموعة من مهام الفهم البصري. المصدر: كوهير

وقد أصبح اللجوء إلى البيانات الاصطناعية توجّهًا متزايدًا في قطاع الذكاء الاصطناعي، حيث تستفيد شركات مثل OpenAI من هذه التقنية لمواجهة النقص في البيانات الحقيقية المتاحة للتدريب.

ووفقًا لتقديرات شركة Gartner للأبحاث، فإن 60% من البيانات المستخدمة في مشاريع الذكاء الاصطناعي والتحليلات خلال العام الماضي كانت مُنشأة بشكل اصطناعي.

وأشارت Cohere إلى أن الاعتماد على التعليقات التوضيحية الاصطناعية سمح لها بتحقيق نتائج قوية باستخدام موارد أقل، وهو ما يعكس التوجه نحو كفاءة أعلى في استخدام الحوسبة.

وأوضحت الشركة أن هذه المقاربة تساعد الباحثين، الذين قد لا يمتلكون القدرة على الوصول إلى موارد حوسبية ضخمة، في تطوير حلول متقدمة بكفاءة أعلى.

هذا يعني أن هؤلاء الباحثين يمكنهم الآن استخدام نموذج Aya Vision وتقنيات التدريب التي استخدمتها Cohere لتحقيق نتائج جيدة في أبحاثهم وتطوير حلول ذكاء اصطناعي متقدمة، حتى لو لم يكن لديهم موارد مالية ضخمة.

AyaVisionBench: تقييم أكثر دقة لمهارات النماذج

إلى جانب Aya Vision، أطلقت Cohere مجموعة اختبارات جديدة تحت اسم AyaVisionBench.

وتهدف هذه الاختبارات إلى قياس قدرة النماذج على تنفيذ المهام التي تجمع بين النصوص والصور، مثل مقارنة الاختلافات بين صورتين أو تحويل لقطات الشاشة إلى أكواد برمجية.

يأتي هذا في وقت تواجه فيه صناعة الذكاء الاصطناعي تحديًا متزايدًا في مجال التقييم، حيث أصبحت العديد من الاختبارات المعيارية التقليدية تعطي نتائج مجمّعة لا تعكس بدقة مدى كفاءة النماذج في المهام الفعلية التي تهم المستخدمين.

في هذا السياق، أفادت Cohere أن AyaVisionBench يمثل خطوة نحو معالجة هذه المشكلة، من خلال تقديم إطار شامل وأكثر صرامة لتقييم قدرات النماذج في فهم اللغات المتعددة والتعامل مع البيانات متعددة الوسائط.

وقد صرح باحثو Cohere عبر منصة Hugging Face بأن "مجموعة البيانات هذه توفر معيارًا قويًا لتقييم هذه النماذج في بيئات متعددة اللغات وأكثر واقعية".

وأضافوا أنهم يتيحون هذه المجموعة للمجتمع البحثي بهدف تعزيز تقييمات النماذج متعددة الوسائط واللغات.

Related Posts

الآن على X: اسأل Grok مباشرة لفهم أي منشور في التعليقات
  • مارس 7, 2025

أصبح بإمكان مستخدمي منصة X الآن التفاعل مع نموذج الذكاء الاصطناعي Grok بطريقة أكثر سهولة، وذلك من خلال الإشارة إليه في…

اقرأ المزيد

نموذج GPT-4.5 من OpenAI يصل الآن إلى المزيد من مستخدمي ChatGPT
  • مارس 6, 2025

بدأت OpenAI في إتاحة نموذجها الأحدث GPT-4.5 لعدد أكبر من مستخدمي ChatGPT، حيث أصبح متاحًا الآن للمشتركين في خطة ChatGPT Plus….

اقرأ المزيد

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

آخر المقالات

QwQ-32B: كل ما تريد معرفته عن نموذج على بابا الجديد منافس DeepSeek-R1

    QwQ-32B: كل ما تريد معرفته عن نموذج على بابا الجديد منافس DeepSeek-R1

    الآن على X: اسأل Grok مباشرة لفهم أي منشور في التعليقات

      الآن على X: اسأل Grok مباشرة لفهم أي منشور في التعليقات

      Mistral OCR: الحل الذكي لمعالجة مستندات PDF المعقدة بالذكاء الاصطناعي

        Mistral OCR: الحل الذكي لمعالجة مستندات PDF المعقدة بالذكاء الاصطناعي