دليل مواقع وأدوات و تطبيقات الذكاء الاصطناعي

حلل صورك بالذكاء الاصطناعي ودردش عنها مجانًا مع Molmo

تمثل النماذج متعددة الوسائط (Multimodal Models) اليوم تقدمًا حقيقيًا في تطوير الذكاء الاصطناعي، حيث تساعد الآلات على التعامل مع أنواع مختلفة من البيانات مثل النصوص والصور في نفس الوقت.

كما تعتبر هذه النماذج أساسية في تطبيقات متنوعة، مثل وصف الصور وتحليلها، والإجابة عن الأسئلة ، وأيضًا في مجال الروبوتات التي تستلزم فهماً للصور والنصوص معا.

و رغم الإمكانيات الهائلة لهذه النماذج، إلا أن الكثير منها يعتمد على بيانات مغلقة أو يمكن أن نقول سرية تحت سيطرة شركات معينة.

حيث أن هذه البيانات -مثل تلك المستخدمة في نماذج مثل GPT-4 وClaude 3.5- غير متاحة بشكل واسع، مما يمنع الباحثين من تحسين هذه النماذج أو بناء نماذج مشابهة.

و لهذا، فإن تطوير نماذج تعتمد على بيانات مفتوحة ومتاحة للجميع هو خطوة ضرورية تساعدنا في التقدم للأمام.

ببساطة، إذا اقتصرت بيانات التدريب على شركات معينة، فكيف سيستطيع الباحثون الإبداع؟

 

جدول يُقارن انفتاح Molmo من حيث البيانات والأوزان وكود التدريب مع نماذج لغة أخرى مثل GPT و Claude.
يُظهر هذا الجدول أن (مولمو) هو نموذج لغة مفتوح المصدر، مما يعني أن أي شخص يستطيع الوصول إلى بياناته وكوده. وبالتالي القدرة على تطوير نماذج لغة أفضل. المصدر: molmo.allenai.org

 

Molmo: الحل المفتوح الجديد من Ai2

 

في هذا السياق، أتى فريق من الباحثين في معهد Allen للذكاء الاصطناعي بالتعاون مع جامعة واشنطن لتقديم عائلة نماذج Molmo.

و تمثل هذه النماذج إضافة جديدة مميزة في تطوير النماذج مفتوحة المصدر، حيث تعتمد على بيانات مفتوحة، مما يسمح للمهتمين مثلنا من الوصول إليها وتطويرها.

و بالنسبة إلى عملية التدريب، فقد تم تدريب نماذج Molmo باستخدام عملية بسيطة ولكن فعالة، حيث تم الجمع بين مشفر رؤية (vision encoder) ونموذج لغوي.

المشفر يعتمد على نموذج OpenAI المعروف باسم ViT-L/14 CLIP، الذي يقوم بتحويل الصور إلى رموز يمكن للنماذج اللغوية معالجتها بسهولة.

الشئ المميز أيضًا في هذا الإصدار هو أنه يعتمد بشكل أساسي على مجموعة بيانات جديدة تم تسميتها "PixMo".

و البيانات التي تم استخدامها في تدريب هذه النماذج، فهي تأتي من هذه المجموعة، والتي تحتوي على أكثر من 712,000 صورة وما يزيد عن 1.3 مليون وصف.

كما أن هذه المجموعة تحتوى على أوصاف تفصيلية للصور، والتي تم إنشاؤها بالكامل بواسطة مساهمين بشريين.

حيث تم توجيه هؤلاء المساهمين لوصف كل تفصيلة في الصورة، مما ساعد في تجميع بيانات عالية الجودة في فترة زمنية قصيرة.

بمعنى آخر، تم تدريب هذه النماذج باستخدام بيانات حقيقية وليست صناعية، و هو ما يجعل النتائج أكثر دقة وجودة.

تعرف أيضًا على نموذج Ovis لتحليل الصور مجانًا 

 

تفاصيل الإصدارات في عائلة مولمو

 

تتضمن مجموعة مولمو العديد من النماذج التي تلبي احتياجات مختلفة:

  • MolmoE-1B: و هو نموذج يعتمد على مزيج من الخبراء (mixture-of-experts) و يستخدم النموذج اللغوي OLMoE-1B-7B
  • Molmo-7B-O: الذي يقوم على OLMo-7B-1024، ومن المقرر إصداره في أكتوبر 2024.
  • Molmo-7B-D: نموذج تجريبي يعتمد على Qwen2 7B مفتوح الوزن.
  • Molmo-72B: وهو النموذج الأعلى أداءً في هذه المجموعة و يعتمد على Qwen2 72B LLM.

 

الأداء والتقييم

 

جدول يُقارن أداء نماذج Molmo للغة متعددة الوسائط مع نماذج أخرى مثل GPT و Claude، ويُظهر تفوق مولمو في العديد من المعايير
مقارنة أداء نماذج اللغة متعددة الوسائط مولمو مقابل نماذج أخرى.
الورقة البحثية للمشروع.

تتميز نماذج مولمو بأدائها القوي مقارنة بالنماذج المغلقة.

ف طِبقًا لتقرير الشركة عبر مدونتهم الرسمية، حقق نموذج Molmo-72B نتائج ممتازة في مجموعة من الاختبارات الأكاديمية، متفوقًا على نماذج معروفة مثل Gemini 1.5 وClaude 3.5 Sonnet في 11 اختبارًا.

كما حصل على المركز الثاني في تقييم بشري تضمن 15,000 زوج من الصور والنصوص، حيث كان قريبًا جدًا من نموذج GPT-4o.

وفي اختبار AndroidControl -والذي يركز على أداء النماذج في مهام التحكم منخفضة وعالية المستوى- حقق النموذج دقة بلغت 88.7% في المهام البسيطة و69.0% في المهام الأكثر تعقيدًا.

و أما نموذج MolmoE-1B فقد حقق هو الآخر نتائج رائعة، مقاربًا في الأداء لنموذج GPT-4V، مما يجعله نموذجًا مفتوحًا قويًا.

كما قامت الشركة أيضًا بدمج هذا الاصدار في روبوت تجريبي "Molmo Robotics Demo"، و نشروا مقطع عبر قناتهم الرسمية في يوتيوب.

حيث يظهر في المقطع قوة هذا الروبوت في التعرف على تفاصيل المشهد و أداء المهام المنزلية من خلال المطالبات النصية له فقط.

 

تحدث مع Molmo مجانًا و قم بالدردشة حول الصور

 

أداة الدردشة عن الصور Molmo، والتي تقوم بتحليل و فهم الصور و الإجابة عن أي أسئلة بخصوصها

 

إذا كنت مهتمًا بتجربة مولمو، فقد قام معهد Allen للذكاء الاصطناعي (Ai2) بإتاحة النموذج للاستخدام المجاني.

حيث يمكنك الدخول الآن و طرح أسئلة حول صورك، و طلب وصف محتواها، أو حتى إنشاء قصص بناءً على هذه الصور. كما يتميز بواجهة سهلة الاستخدام تتيح للزوار تحميل الصور وطرح الأسئلة بكل سهولة و الدردشة عن هذه الصور مجانًا.

و ذلك بالإضافة إلى ميزة الميكرفون التي تسمح لك بالتحدث صوتيًا بدلًا من الكتابة.

اذهب الى Molmo

بالختام، فإننا ك Arab AI نفرح برؤية مثل هذه النماذج التي تحاول الخروج من الباب المغلق و تقدم أمثلة حية مبنية على الابداع. كفكرة المساهمة البشرية في التدريب للحصول على نتائج أقرب للواقعية.

و رغم وجود بعض التحديات كمستخدمين عرب عند استخدام Molmo مثل عدم الوصول إلى الأداء المثالي في التحدث بالعربية. إلا أن كونه مفتوح المصدر يجعل من المحتمل أن يتطور في هذه النقطة خلال وقت قريب.

كما أننا متحمسون لرؤية كيف سيتم استخدام نموذج مولمو في مجالات مختلفة، مثل تحليل الصور الطبية، ومساعدة الأشخاص ذوي الإعاقة.

Khaled B.

خبير في الذكاء الاصطناعي يتمتع بخبرة واسعة في تطوير وتنفيذ حلول متقدمة باستخدام أحدث تقنياته. مُتخصص في توظيف هذه الإمكانيات لتحسين الأعمال وتحقيق الأرباح من خلال الابتكار التكنولوجي. لديه شغف لإيجاد استراتيجيات وحلول مبتكرة تساعد الشركات والأفراد على تحقيق أهدافهم من خلال تسخير هذه التكنولوجيا.

Related Posts

Particle: تطبيق ذكاء اصطناعي مجاني للأخبار يدعم الصحافة والناشرين

يأتي تطبيق Particle كخطوة جديدة لدعم قطاع الإعلام الرقمي في وقت تواجه فيه الصحافة تحديات…

اقرأ المزيد

تحريك الوجوه مجانًا مع AdvancedLivePortrait عبر Google Colab

نموذج AdvancedLivePortrait-WebUI هو أداة قوية لتحويل الصور الثابتة للوجوه إلى صور (بورتريهات) متحركة واقعية ونابضة…

اقرأ المزيد

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

مقالات قد تهمك

Particle: تطبيق ذكاء اصطناعي مجاني للأخبار يدعم الصحافة والناشرين

    Particle: تطبيق ذكاء اصطناعي مجاني للأخبار يدعم الصحافة والناشرين

    Namify: صمم اسم مشروعك وشعارك بسهولة مجانًا

      Namify: صمم اسم مشروعك وشعارك بسهولة مجانًا

      منصة X تطلق نسخة مجانية من روبوت الدردشة Grok

        منصة X تطلق نسخة مجانية من روبوت الدردشة Grok

        تحريك الوجوه مجانًا مع AdvancedLivePortrait عبر Google Colab

          تحريك الوجوه مجانًا مع AdvancedLivePortrait عبر Google Colab

          أحدث تطورات OpenAI: انتصارات قانونية، أعطال تقنية، ونمو ChatGPT

            أحدث تطورات OpenAI: انتصارات قانونية، أعطال تقنية، ونمو ChatGPT