كشفت Alibaba International مؤخرًا عن نموذجها المتطور متعدد الوسائط Ovis1.6-Gemma2-9B، وهو نموذج يتمتع بقدرات مذهلة في تحليل البيانات متعددة الأنماط مثل الصور والنصوص.
و يأتي هذا النموذج مع إمكانيات واسعة تشمل مجالات عدة مثل التعليم، الطب، تحليل البيانات، بل وحتى المساعدة في مهام يومية كالواجبات الدراسية.
مما يجعله إضافة قوية جديدة إلى تطبيقات الذكاء الاصطناعي.
دعونا نتعرف أكثر عن مزايا هذا الإصدار و قوته و مقارنته مع النماذج المشابهة.
Ovis 1.6-Gemma2-9B: تحليل الصور بالذكاء الاصطناعي بدقة عالية
Ovis 1.6-Gemma2-9B هو جزء من سلسلة نماذج الذكاء الاصطناعي مفتوحة المصدر التي طورتها Alibaba.
حيث يعتمد على بنية متعددة الوسائط، مما يعني قدرته على معالجة وفهم النصوص والصور في آن واحد.
و هو ما يسمح له بتقديم أداء أفضل في المهام التي تتطلب تكاملًا بين الأنماط المختلفة من البيانات.
فعلي سبيل المثال، قمت برفع صورة لأحد المعالم السياحية الموجودة في اسطنبول، و سؤاله عن اسم المعلم و تاريخه.
كمثال أخر، يمكنك تحميل صورة طبق طعام، وسيتولى Ovis ليس فقط التعرف على مكونات الطبق بل أيضًا تقديم تعليمات طبخه. أليس هذا رائعا؟
ميزات نموذج Ovis 1.6-Gemma2-9B
1. القدرة على تحليل الصور والنصوص
يتميز النموذج بقدرته الفائقة على تحليل النصوص والصور معًا.
هذا يعني أنه يمكنه التعامل مع بيانات متعددة الأنماط في وقت واحد، و ذلك يجعله أداة مثالية للاستخدام في مجالات متنوعة مثل:
- التعرف على الأجسام في الصور
- تحليل النصوص المعقدة
- تقديم استنتاجات بناءً على مزيج من البيانات البصرية والنصية
2. التفوق في التقييمات
وفقًا لتحليل OpenCompass المتخصصة في تقييم نماذج الذكاء الاصطناعي، يتفوق Ovis 1.6-Gemma2-9B على العديد من النماذج الأخرى ذات الأحجام الصغيرة (أقل من 30 مليار معلمة).
حيث سجل النموذج نتائج ممتازة في مجموعة متنوعة من الاختبارات، متفوقًا على نماذج مثل MiniCPM-V-2.6.
و بفضل هذا الأداء المتميز، يعتبر Ovis من بين أقوى النماذج متعددة الوسائط في السوق اليوم.
3. التطبيقات العملية
لا تقتصر تطبيقات Ovis على مجرد التحليل النصي أو البصري،
بل يمكننا النظر سوِيًّا إلى أفكار و تطبيقات كي نستطيع الاستفادة من مثل هذه التقنية في العديد من المجالات:
- التعليم: حيث تحليل النصوص والصور التعليمية وتقديم شروحات مبسطة ومرئية للطلاب. ابدأ برفع صورة لأحد المسائل الرياضية و سيساعدك في حلها.
- الطب: يمكن للنموذج مساعدتنا في تشخيص الأمراض من خلال تحليل الصور الطبية، مما يوفر أداة قوية للأطباء.
- الطبخ: كما ذكرنا سابقًا، يمكن لـ Ovis تحليل صور الأطباق وتقديم خطوات طهي دقيقة.
أداء Ovis في التقييمات
تم تقييم Ovis 1.6-Gemma2-9B باستخدام منصة OpenCompass، حيث تم قياس أدائه في عدة مجالات تشمل:
- التعرف على الأجسام (MMBEnch V1.1)
- حل المعادلات الرياضية
- التعرف على النصوص المكتوبة بخط اليد (HallucinationBench)
- التعرف على الأزهار والنباتات
- اتخاذ القرارات المعقدة
وفقًا للبيانات المتاحة، حقق النموذج نتائج عالية في معظم المجالات، مما يجعله نموذجًا موثوقًا يمكن الاعتماد عليه في المهام المختلفة.
الهيكلية المبتكرة لـ Ovis
ما يميز هذه الأداة عن باقي النماذج هو هيكليته المبتكرة التي تسمح له بمعالجة الصور والنصوص بشكل متوازي.
و هو ما يعزز من دقة وفعالية النموذج في تقديم استنتاجات منطقية من خلال تحليل البيانات متعددة الأنماط.
على سبيل المثال، يستخدم Ovis جداول تضمين خاصة لكل من الصور والنصوص لربط المعلومات.
مستقبل النموذج و استغلال قوة تحليل الصور و البيانات بالذكاء الاصطناعي
بفضل كونه نموذجًا مفتوح المصدر تحت رخصة Apache 2.0، يمكن للمطورين والشركات استخدام Ovis وتطويره بحرية.
و بالتأكيد يعزز ذلك من فرص انتشار النموذج في أسواق جديدة وتطوير تطبيقات مبتكرة تعتمد على قدراته المتعددة.
كما أتوقع أن يشهد النموذج انتشارًا واسعًا في مجالات مثل:
- القيادة الذاتية: تحليل البيانات البصرية بشكل فوري لاتخاذ قرارات سريعة.
- الفيديو: فهم وتحليل محتوى الفيديو بشكل متعمق.
- الطب: تحسين التشخيص الطبي من خلال تحليل البيانات المتعددة.
بالختام، فإننا نشيد بنموذج Ovis 1.6-Gemma2-9B كخطوة مميزة نحو تطوير الذكاء الاصطناعي متعدد الوسائط.
و بفضل قدراته القوية في تحليل النصوص والصور معًا، وأدائه الرائع في التقييمات، يثبت هذا النموذج جدارته في السوق.
و مع استمرارية تحسينه بصفته مفتوح المصدر قابل للتطوير، فإنه يمثل جيلًا جديدًا من نماذج الذكاء الاصطناعي التي يمكن أن تمثل تغييرًا جذريًا في العديد من الصناعات.
إذا كنت مهتمًا بمجال صور الذكاء الاصطناعي: تعرف على افضل ادوات تصميم الصور بال AI.