Molmo من Ai2: أداة الدردشة عن الصور بالذكاء الاصطناعي مجانًا.

روبوت يُظهر قوة أداة Molmo في تحليل الصور والدردشة بالذكاء الاصطناعي حولها

تمثل النماذج متعددة الوسائط (Multimodal Models) اليوم تقدمًا حقيقيًا في تطوير الذكاء الاصطناعي، حيث تساعد الآلات على التعامل مع أنواع مختلفة من البيانات مثل النصوص والصور في نفس الوقت.

كما تعتبر هذه النماذج أساسية في تطبيقات متنوعة، مثل وصف الصور وتحليلها، والإجابة عن الأسئلة ، وأيضًا في مجال الروبوتات التي تستلزم فهماً للصور والنصوص معا.

و رغم الإمكانيات الهائلة لهذه النماذج، إلا أن الكثير منها يعتمد على بيانات مغلقة أو يمكن أن نقول سرية تحت سيطرة شركات معينة.

حيث أن هذه البيانات -مثل تلك المستخدمة في نماذج مثل GPT-4 وClaude 3.5- غير متاحة بشكل واسع، مما يمنع الباحثين من تحسين أو بناء نماذج مشابهة.

و لهذا، فإن تطوير أنظمة تعتمد على بيانات مفتوحة ومتاحة للجميع هو خطوة ضرورية تساعدنا في التقدم للأمام.

ببساطة، إذا اقتصرت بيانات التدريب على شركات معينة، فكيف سيستطيع الباحثون الإبداع؟

Molmo: الحل المفتوح الجديد من Ai2

في هذا السياق، أتى فريق من الباحثين في معهد Allen للذكاء الاصطناعي بالتعاون مع جامعة واشنطن لتقديم عائلة نماذج Molmo. وتمثل هذه الإصدارات إضافة جديدة مميزة في تطوير النماذج مفتوحة المصدر، مما يسمح للمهتمين مثلنا من الوصول إليها وتطويرها.

و بالنسبة إلى عملية التدريب، فقد تم تدريبهم باستخدام عملية بسيطة ولكن فعالة، حيث تم الجمع بين مشفر رؤية (vision encoder) ونموذج لغوي.

المشفر يعتمد على نموذج OpenAI المعروف باسم ViT-L/14 CLIP، الذي يقوم بتحويل الصور إلى رموز يمكن للنماذج اللغوية معالجتها بسهولة.

الشئ المميز أيضًا في هذا الإصدار هو أنه يعتمد بشكل أساسي على مجموعة بيانات جديدة تم تسميتها "PixMo".

والبيانات التي تم استخدامها في تدريب هذه الإصدارات فهي تأتي من هذه المجموعة، والتي تحتوي على أكثر من 712,000 صورة وما يزيد عن 1.3 مليون وصف.

كما أن هذه المجموعة تحتوى على أوصاف تفصيلية للصور، والتي تم إنشاؤها بالكامل بواسطة مساهمين بشريين.

حيث تم توجيه هؤلاء المساهمين لوصف كل تفصيلة في الصورة، مما ساعد في تجميع بيانات عالية الجودة في فترة زمنية قصيرة.

بمعنى آخر، تم تدريب هذه النماذج باستخدام بيانات حقيقية وليست صناعية، و هو ما يجعل النتائج أكثر دقة وجودة.

تعرف أيضًا على أداة Ovis لتحليل الصور مجانًا

تفاصيل الإصدارات في عائلة مولمو

تتضمن هذه العائلة العديد من النماذج التي تلبي احتياجات مختلفة:

MolmoE-1B: وهو يعتمد على مزيج من الخبراء (mixture-of-experts) و يستخدم النموذج اللغوي OLMoE-1B-7B
Molmo-7B-O: الذي يقوم على OLMo-7B-1024.
Molmo-7B-D: إصدار تجريبي يعتمد على Qwen2 7B مفتوح الوزن.
Molmo-72B: وهو النموذج الأعلى أداءً في هذه المجموعة و يعتمد على Qwen2 72B LLM.

الأداء والتقييم

جدول يُقارن أداء نماذج Molmo للغة متعددة الوسائط مع نماذج أخرى مثل GPT و Claude، ويُظهر تفوق مولمو في العديد من المعايير — مقارنة أداء المجموعة مقابل نماذج أخرى.
الورقة البحثية للمشروع.

تتميز أدوات مولمو بأدائها القوي مقارنة بالنماذج المغلقة.

ف طِبقًا لتقرير الشركة عبر مدونتهم الرسمية، حقق Molmo-72B نتائج ممتازة في مجموعة من الاختبارات الأكاديمية، متفوقًا على نماذج معروفة مثل Gemini 1.5 وClaude 3.5 Sonnet في 11 اختبارًا.

كما حصل على المركز الثاني في تقييم بشري تضمن 15,000 زوج من الصور والنصوص، حيث كان قريبًا جدًا من GPT-4o.

وفي اختبار AndroidControl -والذي يركز على أداء النماذج في مهام التحكم منخفضة وعالية المستوى- حقق النموذج دقة بلغت 88.7% في المهام البسيطة و69.0% في المهام الأكثر تعقيدًا.

و أما MolmoE-1B فقد حقق هو الآخر نتائج رائعة، مقاربًا في الأداء لنموذج GPT-4V، مما يجعله نموذجًا مفتوحًا قويًا.

كما قامت الشركة أيضًا بدمج هذا الاصدار في روبوت تجريبي "Molmo Robotics Demo"، و نشروا مقطع عبر قناتهم الرسمية في يوتيوب.

حيث يظهر في المقطع قوة هذا الروبوت في التعرف على تفاصيل المشهد و أداء المهام المنزلية من خلال المطالبات النصية له فقط.

تحدث مع Molmo مجانًا و قم بالدردشة حول الصور

إذا كنت مهتمًا بتجربة مولمو، فقد قام معهد Allen للذكاء الاصطناعي (Ai2) بإتاحة النموذج للاستخدام المجاني.

حيث يمكنك الدخول الآن و طرح أسئلة حول صورك، و طلب وصف محتواها، أو حتى إنشاء قصص بناءً على هذه الصور. كما يتميز بواجهة سهلة الاستخدام تتيح للزوار تحميل الصور وطرح الأسئلة بكل سهولة و الدردشة عن هذه الصور مجانًا.

و ذلك بالإضافة إلى ميزة الميكرفون التي تسمح لك بالتحدث صوتيًا بدلًا من الكتابة.

اذهب الى Molmo

بالختام، من الرائع رؤية مثل هذه الأدوات التي تحاول الخروج من الباب المغلق و تقدم أمثلة حية مبنية على الابداع. كفكرة المساهمة البشرية في التدريب للحصول على نتائج أقرب للواقعية.

و رغم وجود بعض التحديات كمستخدمين عرب عند استخدام Molmo مثل عدم الوصول إلى الأداء المثالي في التحدث بالعربية. إلا أن كونه مفتوح المصدر يجعل من المحتمل أن يتطور في هذه النقطة خلال وقت قريب.

كما أننا متحمسون لرؤية كيف سيتم استخدام هذه المجموعة الجديدة في مجالات مختلفة، مثل تحليل الصور الطبية، ومساعدة الأشخاص ذوي الإعاقة.