دليل مواقع وأدوات و تطبيقات الذكاء الاصطناعي

الدردشة وتحليل الصور بالذكاء الاصطناعي مجانًا مع Alibaba Ovis

كشفت Alibaba International مؤخرًا عن نموذجها المتطور متعدد الوسائط Ovis1.6-Gemma2-9B، وهو نموذج يتمتع بقدرات مذهلة في تحليل البيانات متعددة الأنماط مثل الصور والنصوص.

و يأتي هذا النموذج مع إمكانيات واسعة تشمل مجالات عدة مثل التعليم، الطب، تحليل البيانات، بل وحتى المساعدة في مهام يومية كالواجبات الدراسية.

مما يجعله إضافة قوية جديدة إلى تطبيقات الذكاء الاصطناعي.

دعونا نتعرف أكثر عن مزايا هذا الإصدار و قوته و مقارنته مع النماذج المشابهة.

 

Ovis 1.6-Gemma2-9B: تحليل الصور بالذكاء الاصطناعي بدقة عالية

 

Ovis 1.6-Gemma2-9B هو جزء من سلسلة نماذج الذكاء الاصطناعي مفتوحة المصدر التي طورتها Alibaba.

حيث يعتمد على بنية متعددة الوسائط، مما يعني قدرته على معالجة وفهم النصوص والصور في آن واحد.

و هو ما يسمح له بتقديم أداء أفضل في المهام التي تتطلب تكاملًا بين الأنماط المختلفة من البيانات.

فعلي سبيل المثال، قمت برفع صورة لأحد المعالم السياحية الموجودة في اسطنبول، و سؤاله عن اسم المعلم و تاريخه. 

 

تحليل صورة لمعلم تاريخي و الدردشة بالعربية حول الصورة مع نموذج علي بابا الجديد
الدردشة مع الأداة بخصوص صورة المسجد الأزرق باسطنبول، حيث تعرف عليه بسهولة و أعطاني نبذة تاريخية عنه

 

كمثال أخر، يمكنك تحميل صورة طبق طعام، وسيتولى Ovis ليس فقط التعرف على مكونات الطبق بل أيضًا تقديم تعليمات طبخه. أليس هذا رائعا؟


ميزات نموذج Ovis 1.6-Gemma2-9B

 

1. القدرة على تحليل الصور والنصوص

يتميز النموذج بقدرته الفائقة على تحليل النصوص والصور معًا.

هذا يعني أنه يمكنه التعامل مع بيانات متعددة الأنماط في وقت واحد، و ذلك يجعله أداة مثالية للاستخدام في مجالات متنوعة مثل:

  • التعرف على الأجسام في الصور
  • تحليل النصوص المعقدة
  • تقديم استنتاجات بناءً على مزيج من البيانات البصرية والنصية

 

2. التفوق في التقييمات

 

وفقًا لتحليل OpenCompass المتخصصة في تقييم نماذج الذكاء الاصطناعي، يتفوق Ovis 1.6-Gemma2-9B على العديد من النماذج الأخرى ذات الأحجام الصغيرة (أقل من 30 مليار معلمة).

 

مقارنة تقييم أداء نموذج Ovis 1.6-Gemma2-9B مع النماذج الأخرى

 

حيث سجل النموذج نتائج ممتازة في مجموعة متنوعة من الاختبارات، متفوقًا على نماذج مثل MiniCPM-V-2.6.

و بفضل هذا الأداء المتميز، يعتبر Ovis من بين أقوى النماذج متعددة الوسائط في السوق اليوم.

 

3. التطبيقات العملية

 

لا تقتصر تطبيقات Ovis على مجرد التحليل النصي أو البصري،

بل يمكننا النظر سوِيًّا إلى أفكار و تطبيقات كي نستطيع الاستفادة من مثل هذه التقنية في العديد من المجالات:

  • التعليم: حيث تحليل النصوص والصور التعليمية وتقديم شروحات مبسطة ومرئية للطلاب. ابدأ برفع صورة لأحد المسائل الرياضية و سيساعدك في حلها.
  • الطب: يمكن للنموذج مساعدتنا في تشخيص الأمراض من خلال تحليل الصور الطبية، مما يوفر أداة قوية للأطباء.
  • الطبخ: كما ذكرنا سابقًا، يمكن لـ Ovis تحليل صور الأطباق وتقديم خطوات طهي دقيقة.

 

أداء Ovis في التقييمات

 

تم تقييم Ovis 1.6-Gemma2-9B باستخدام منصة OpenCompass، حيث تم قياس أدائه في عدة مجالات تشمل:

  • التعرف على الأجسام (MMBEnch V1.1)
  • حل المعادلات الرياضية
  • التعرف على النصوص المكتوبة بخط اليد (HallucinationBench)
  • التعرف على الأزهار والنباتات
  • اتخاذ القرارات المعقدة

وفقًا للبيانات المتاحة، حقق النموذج نتائج عالية في معظم المجالات، مما يجعله نموذجًا موثوقًا يمكن الاعتماد عليه في المهام المختلفة.

 

الهيكلية المبتكرة لـ Ovis

ما يميز هذه الأداة عن باقي النماذج هو هيكليته المبتكرة التي تسمح له بمعالجة الصور والنصوص بشكل متوازي.

و هو ما يعزز من دقة وفعالية النموذج في تقديم استنتاجات منطقية من خلال تحليل البيانات متعددة الأنماط.

على سبيل المثال، يستخدم Ovis جداول تضمين خاصة لكل من الصور والنصوص لربط المعلومات.

 

مستقبل النموذج و استغلال قوة تحليل الصور و البيانات بالذكاء الاصطناعي 

 

بفضل كونه نموذجًا مفتوح المصدر تحت رخصة Apache 2.0، يمكن للمطورين والشركات استخدام Ovis وتطويره بحرية.

و بالتأكيد يعزز ذلك من فرص انتشار النموذج في أسواق جديدة وتطوير تطبيقات مبتكرة تعتمد على قدراته المتعددة.

كما أتوقع أن يشهد النموذج انتشارًا واسعًا في مجالات مثل:

  • القيادة الذاتية: تحليل البيانات البصرية بشكل فوري لاتخاذ قرارات سريعة.
  • الفيديو: فهم وتحليل محتوى الفيديو بشكل متعمق.
  • الطب: تحسين التشخيص الطبي من خلال تحليل البيانات المتعددة.

 

بالختام، فإننا نشيد بنموذج Ovis 1.6-Gemma2-9B  كخطوة مميزة نحو تطوير الذكاء الاصطناعي متعدد الوسائط.

و بفضل قدراته القوية في تحليل النصوص والصور معًا، وأدائه الرائع في التقييمات، يثبت هذا النموذج جدارته في السوق.

و مع استمرارية تحسينه بصفته مفتوح المصدر قابل للتطوير، فإنه يمثل جيلًا جديدًا من نماذج الذكاء الاصطناعي التي يمكن أن تمثل تغييرًا جذريًا في العديد من الصناعات.

إذا كنت مهتمًا بمجال صور الذكاء الاصطناعي: تعرف على افضل ادوات تصميم الصور بال AI.

 

Related Posts

أوبن إيه آي تتيح التحدث مع ChatGPT هاتفيًا وعبر تطبيق واتساب

في خطوة تهدف إلى جعل الذكاء الاصطناعي أكثر وصولاً للجميع، أطلقت OpenAI ميزة جديدة تسمح…

اقرأ المزيد

جوجل تنافس OpenAI بأداة Veo 2 للفيديو، و”Whisk” لدمج الصور

تشمل تحديثات جوجل ٣ ادوات رئيسية الإعلان عن Veo 2: تحسينات في الدقة والحركة والواقعية،…

اقرأ المزيد

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

مقالات قد تهمك

Stylor AI: حوّل الصور إلى تصميمات إبداعية بالذكاء الاصطناعي مجانًا

    Stylor AI: حوّل الصور إلى تصميمات إبداعية بالذكاء الاصطناعي مجانًا

    Leffa: تركيب وتغيير الملابس وتعديل وضعيات الجسم مجانًا

      Leffa: تركيب وتغيير الملابس وتعديل وضعيات الجسم مجانًا

      أوبن إيه آي تتيح التحدث مع ChatGPT هاتفيًا وعبر تطبيق واتساب

        أوبن إيه آي تتيح التحدث مع ChatGPT هاتفيًا وعبر تطبيق واتساب

        جوجل تنافس OpenAI بأداة Veo 2 للفيديو، و”Whisk” لدمج الصور

          جوجل تنافس OpenAI بأداة Veo 2 للفيديو، و”Whisk” لدمج الصور

          البحث باستخدام ChatGPT Search أصبح للجميع مجانًا مع مزايا مذهلة

            البحث باستخدام ChatGPT Search أصبح للجميع مجانًا مع مزايا مذهلة