دليل مواقع وأدوات و تطبيقات الذكاء الاصطناعي

حلل صورك بالذكاء الاصطناعي ودردش عنها مجانًا مع Molmo

تمثل النماذج متعددة الوسائط (Multimodal Models) اليوم تقدمًا حقيقيًا في تطوير الذكاء الاصطناعي، حيث تساعد الآلات على التعامل مع أنواع مختلفة من البيانات مثل النصوص والصور في نفس الوقت.

كما تعتبر هذه النماذج أساسية في تطبيقات متنوعة، مثل وصف الصور وتحليلها، والإجابة عن الأسئلة ، وأيضًا في مجال الروبوتات التي تستلزم فهماً للصور والنصوص معا.

و رغم الإمكانيات الهائلة لهذه النماذج، إلا أن الكثير منها يعتمد على بيانات مغلقة أو يمكن أن نقول سرية تحت سيطرة شركات معينة.

حيث أن هذه البيانات -مثل تلك المستخدمة في نماذج مثل GPT-4 وClaude 3.5- غير متاحة بشكل واسع، مما يمنع الباحثين من تحسين هذه النماذج أو بناء نماذج مشابهة.

و لهذا، فإن تطوير نماذج تعتمد على بيانات مفتوحة ومتاحة للجميع هو خطوة ضرورية تساعدنا في التقدم للأمام.

ببساطة، إذا اقتصرت بيانات التدريب على شركات معينة، فكيف سيستطيع الباحثون الإبداع؟

 

جدول يُقارن انفتاح Molmo من حيث البيانات والأوزان وكود التدريب مع نماذج لغة أخرى مثل GPT و Claude.
يُظهر هذا الجدول أن (مولمو) هو نموذج لغة مفتوح المصدر، مما يعني أن أي شخص يستطيع الوصول إلى بياناته وكوده. وبالتالي القدرة على تطوير نماذج لغة أفضل. المصدر: molmo.allenai.org

 

Molmo: الحل المفتوح الجديد من Ai2

 

في هذا السياق، أتى فريق من الباحثين في معهد Allen للذكاء الاصطناعي بالتعاون مع جامعة واشنطن لتقديم عائلة نماذج Molmo.

و تمثل هذه النماذج إضافة جديدة مميزة في تطوير النماذج مفتوحة المصدر، حيث تعتمد على بيانات مفتوحة، مما يسمح للمهتمين مثلنا من الوصول إليها وتطويرها.

و بالنسبة إلى عملية التدريب، فقد تم تدريب نماذج Molmo باستخدام عملية بسيطة ولكن فعالة، حيث تم الجمع بين مشفر رؤية (vision encoder) ونموذج لغوي.

المشفر يعتمد على نموذج OpenAI المعروف باسم ViT-L/14 CLIP، الذي يقوم بتحويل الصور إلى رموز يمكن للنماذج اللغوية معالجتها بسهولة.

الشئ المميز أيضًا في هذا الإصدار هو أنه يعتمد بشكل أساسي على مجموعة بيانات جديدة تم تسميتها "PixMo".

و البيانات التي تم استخدامها في تدريب هذه النماذج، فهي تأتي من هذه المجموعة، والتي تحتوي على أكثر من 712,000 صورة وما يزيد عن 1.3 مليون وصف.

كما أن هذه المجموعة تحتوى على أوصاف تفصيلية للصور، والتي تم إنشاؤها بالكامل بواسطة مساهمين بشريين.

حيث تم توجيه هؤلاء المساهمين لوصف كل تفصيلة في الصورة، مما ساعد في تجميع بيانات عالية الجودة في فترة زمنية قصيرة.

بمعنى آخر، تم تدريب هذه النماذج باستخدام بيانات حقيقية وليست صناعية، و هو ما يجعل النتائج أكثر دقة وجودة.

تعرف أيضًا على نموذج Ovis لتحليل الصور مجانًا 

 

تفاصيل الإصدارات في عائلة مولمو

 

تتضمن مجموعة مولمو العديد من النماذج التي تلبي احتياجات مختلفة:

  • MolmoE-1B: و هو نموذج يعتمد على مزيج من الخبراء (mixture-of-experts) و يستخدم النموذج اللغوي OLMoE-1B-7B
  • Molmo-7B-O: الذي يقوم على OLMo-7B-1024، ومن المقرر إصداره في أكتوبر 2024.
  • Molmo-7B-D: نموذج تجريبي يعتمد على Qwen2 7B مفتوح الوزن.
  • Molmo-72B: وهو النموذج الأعلى أداءً في هذه المجموعة و يعتمد على Qwen2 72B LLM.

 

الأداء والتقييم

 

جدول يُقارن أداء نماذج Molmo للغة متعددة الوسائط مع نماذج أخرى مثل GPT و Claude، ويُظهر تفوق مولمو في العديد من المعايير
مقارنة أداء نماذج اللغة متعددة الوسائط مولمو مقابل نماذج أخرى.
الورقة البحثية للمشروع.

تتميز نماذج مولمو بأدائها القوي مقارنة بالنماذج المغلقة.

ف طِبقًا لتقرير الشركة عبر مدونتهم الرسمية، حقق نموذج Molmo-72B نتائج ممتازة في مجموعة من الاختبارات الأكاديمية، متفوقًا على نماذج معروفة مثل Gemini 1.5 وClaude 3.5 Sonnet في 11 اختبارًا.

كما حصل على المركز الثاني في تقييم بشري تضمن 15,000 زوج من الصور والنصوص، حيث كان قريبًا جدًا من نموذج GPT-4o.

وفي اختبار AndroidControl -والذي يركز على أداء النماذج في مهام التحكم منخفضة وعالية المستوى- حقق النموذج دقة بلغت 88.7% في المهام البسيطة و69.0% في المهام الأكثر تعقيدًا.

و أما نموذج MolmoE-1B فقد حقق هو الآخر نتائج رائعة، مقاربًا في الأداء لنموذج GPT-4V، مما يجعله نموذجًا مفتوحًا قويًا.

كما قامت الشركة أيضًا بدمج هذا الاصدار في روبوت تجريبي "Molmo Robotics Demo"، و نشروا مقطع عبر قناتهم الرسمية في يوتيوب.

حيث يظهر في المقطع قوة هذا الروبوت في التعرف على تفاصيل المشهد و أداء المهام المنزلية من خلال المطالبات النصية له فقط.

 

تحدث مع Molmo مجانًا و قم بالدردشة حول الصور

 

أداة الدردشة عن الصور Molmo، والتي تقوم بتحليل و فهم الصور و الإجابة عن أي أسئلة بخصوصها

 

إذا كنت مهتمًا بتجربة مولمو، فقد قام معهد Allen للذكاء الاصطناعي (Ai2) بإتاحة النموذج للاستخدام المجاني.

حيث يمكنك الدخول الآن و طرح أسئلة حول صورك، و طلب وصف محتواها، أو حتى إنشاء قصص بناءً على هذه الصور. كما يتميز بواجهة سهلة الاستخدام تتيح للزوار تحميل الصور وطرح الأسئلة بكل سهولة و الدردشة عن هذه الصور مجانًا.

و ذلك بالإضافة إلى ميزة الميكرفون التي تسمح لك بالتحدث صوتيًا بدلًا من الكتابة.

اذهب الى Molmo

بالختام، فإننا ك Arab AI نفرح برؤية مثل هذه النماذج التي تحاول الخروج من الباب المغلق و تقدم أمثلة حية مبنية على الابداع. كفكرة المساهمة البشرية في التدريب للحصول على نتائج أقرب للواقعية.

و رغم وجود بعض التحديات كمستخدمين عرب عند استخدام Molmo مثل عدم الوصول إلى الأداء المثالي في التحدث بالعربية. إلا أن كونه مفتوح المصدر يجعل من المحتمل أن يتطور في هذه النقطة خلال وقت قريب.

كما أننا متحمسون لرؤية كيف سيتم استخدام نموذج مولمو في مجالات مختلفة، مثل تحليل الصور الطبية، ومساعدة الأشخاص ذوي الإعاقة.

Khaled B.

خبير في الذكاء الاصطناعي يتمتع بخبرة واسعة في تطوير وتنفيذ حلول متقدمة باستخدام أحدث تقنياته. مُتخصص في توظيف هذه الإمكانيات لتحسين الأعمال وتحقيق الأرباح من خلال الابتكار التكنولوجي. لديه شغف لإيجاد استراتيجيات وحلول مبتكرة تساعد الشركات والأفراد على تحقيق أهدافهم من خلال تسخير هذه التكنولوجيا.

Related Posts

كل ما يمكنك معرفته عن أفضل أدوات تصميم الفيديو بالذكاء الاصطناعي

في الفترة الماضية ظهرت العديد من أدوات تصميم وإنشاء الفيديوهات بالذكاء الاصطناعي، ربما سمع المهتمون عن معظمها. وكانت النتائج التي شاهدناها في كل منهم ممتازة مقارنةً بالفترة القصيرة التي بدأت…

Read more

أفضل أدوات تحويل النص إلى صوت عربي بالذكاء الاصطناعي أونلاين مجانًا

مع تطور الذكاء الاصطناعي، أصبحت أدوات تحويل النص إلى صوت (TTS) من التقنيات التي تقدم خدمات ذات فائدة كبيرة. ومع وجود العديد من الأدوات التي تدعم اللغة العربية، أصبح من…

Read more

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

You Missed

أكثر أدوات الذكاء الاصطناعي استخدامًا وشعبية في 2024

  • أكتوبر 14, 2024
أكثر أدوات الذكاء الاصطناعي استخدامًا وشعبية في 2024

إطلاق SearchGPT قريبًا، ودردش مع صورتك المستقبلية مجانًا

  • أكتوبر 14, 2024
إطلاق SearchGPT قريبًا، ودردش مع صورتك المستقبلية مجانًا

أدوات جديدة لتعلم الإنجليزية وتوليد الفيديو بالذكاء الاصطناعي

  • أكتوبر 13, 2024
أدوات جديدة لتعلم الإنجليزية وتوليد الفيديو بالذكاء الاصطناعي

أداة جوجل لإنشاء الصور بالذكاء الاصطناعي Imagen 3 متاحة للجميع مجانًا

  • أكتوبر 12, 2024
أداة جوجل لإنشاء الصور بالذكاء الاصطناعي Imagen 3 متاحة للجميع مجانًا

كل ما يمكنك معرفته عن أفضل أدوات تصميم الفيديو بالذكاء الاصطناعي

  • أكتوبر 11, 2024
كل ما يمكنك معرفته عن أفضل أدوات تصميم الفيديو بالذكاء الاصطناعي

بفضل الذكاء الاصطناعي، يفوز عالمان بجائزة نوبل

  • أكتوبر 9, 2024
بفضل الذكاء الاصطناعي، يفوز عالمان بجائزة نوبل

ميتا تقدم أدوات ذكاء اصطناعي ومزايا جديدة في فيسبوك

  • أكتوبر 9, 2024
ميتا تقدم أدوات ذكاء اصطناعي ومزايا جديدة في فيسبوك

جوجل تطلق مزايا جديدة للبحث بالذكاء الاصطناعي مع Google Lens

  • أكتوبر 8, 2024
جوجل تطلق مزايا جديدة للبحث بالذكاء الاصطناعي مع Google Lens

MovieGen: أداة ميتا الجديدة لتوليد وتعديل الفيديو بالذكاء الاصطناعي

  • أكتوبر 7, 2024
MovieGen: أداة ميتا الجديدة لتوليد وتعديل الفيديو بالذكاء الاصطناعي