تواصل شركة Mistral الناشئة الفرنسية في مجال الذكاء الاصطناعي تحدي كبرى شركات التقنية مثل OpenAI وAnthropic عبر إصدارها الجديد Pixtral 12B، والذي يُعَد أول نموذج لها متعدد الوسائط يجمع بين معالجة النصوص والصور.
ما هو Pixtral 12B؟
Pixtral 12B هو نموذج يحتوي على 12 مليار متغير، ويبلغ حجمه حوالي 24 جيجابايت. هذه المتغيرات يمكن أن نعتبرها بمثابة "العقول" التي تساعد النموذج على حل المشكلات المختلفة، وكلما زاد عدد هذه المتغيرات، زادت كفاءة النموذج في التعامل مع المهام المختلفة.
تم بناء هذا النموذج استنادًا إلى نموذج نصوص سابق يُدعى Nemo 12B، ويتميز Pixtral 12B بقدرته على تحليل الصور والنصوص معًا، مما يسمح للمستخدمين إدخال روابط أو صور باستخدام تشفير base64 ليتم معالجتها.
و بفضل قدراته متعددة الوسائط، نتوقع أن يكون هذا الإصدار قادرًا على القيام بمهام مثل وصف الصور وتحليلها، وحتى حساب عدد العناصر داخل الصور.
و هذا ما يجعله مشابهًا لنماذج متعددة الوسائط أخرى مثل Claude من Anthropic وGPT-4 من OpenAI.
على الرغم من أن التفاصيل الرسمية حول بيانات التدريب الخاصة بـ Pixtral 12B لم تُكشف بعد، إلا أن هناك بعض المعلومات التقنية التي تم مشاركتها من قبل المطورين الأوائل.
النموذج Pixtral 12B يستخدم نظامًا معقدًا لمعالجة المعلومات، ويتكون من 40 خطوة، أو ما يسمى "طبقات". كل خطوة تساعد النموذج في فهم البيانات بشكل أفضل.
تخيل أنك تحل مشكلة كبيرة، وكل خطوة تقربك من الحل. هذه الطبقات تفعل الشيء نفسه، فهي تجعل النموذج قادرًا على تحليل النصوص والصور بدقة.
و بالإضافة إلى ذلك، يحتوي النموذج على أكثر من 14,000 وحدة صغيرة تعمل معًا، وكل واحدة منها تشبه خلية دماغية صغيرة تفكر في جزء محدد من البيانات. و هذه الوحدات تساعد النموذج على التعامل مع معلومات معقدة جدًا.
أما "الرؤوس" فهي تشبه العيون التي يركز بها النموذج على الأجزاء المهمة من الصورة أو النص.
و بفضل هذه الرؤوس، يمكن للنموذج أن يحدد بسرعة وبدقة ما هو الأهم في البيانات التي يعالجها، مما يجعله فعالاً في تقديم نتائج دقيقة وسريعة.
أما بالنسبة للصور، يعتمد النموذج على مشفر رؤية مخصص يدعم دقة صور تصل إلى 1024x1024، ويحتوي على 24 طبقة مخفية لمعالجة الصور المتقدمة.
ما الذي يُميز Pixtral 12B؟
إحدى الميزات التي تجعل الإصدار الجديد فريدًا هي قدرته على دعم عدد غير محدد من الصور بأحجام مختلفة، وهو ما يجعله متميزًا عن العديد من النماذج الأخرى المتاحة حاليًا.
و يعني هذا أن النموذج يستطيع تحليل مجموعة متنوعة من الصور بمختلف الأحجام والأنواع، و هو ما يفتح المجال لتطبيقات أوسع تشمل تحليل البيانات المرئية والمحتويات المعقدة.
التوجه المستقبلي لشركة Mistral
يأتي إطلاق Pixtral 12B في وقت حققت فيه Mistral AI نجاحات رائعة في سوق الذكاء الاصطناعي.
و لعل آخر تلك النجاحات كان في أواخر شهر يوليو الماضي، حين أطلقت نموذجها "Large 2". وهو نموذج لغوي متقدم يتميز في مهام البرمجة والعمليات الرياضية والاستدلال المنطقي.
قبل فترة قصيرة، أغلقت الشركة جولة تمويلية بلغت قيمتها 645 مليون دولار بقيادة General Catalyst، لتصل قيمة الشركة إلى 6 مليارات دولار. هذه الخطوات تُظهر الطموح الكبير للشركة لتصبح منافسًا رئيسيًا لشركات مثل OpenAI في السوق الأوروبية.
و منذ تأسيسها، تبنت Mistral استراتيجية تطوير نماذج "مفتوحة" مجانية، بينما تفرض رسومًا على النماذج المدارة وتقدم خدمات استشارية للعملاء من الشركات الكبرى.
إطلاق Pixtral 12B يمثل استمرارًا لهذه الاستراتيجية، حيث تسعى الشركة إلى تقديم حلول مبتكرة تمكن المطورين والشركات من الوصول إلى تقنيات الذكاء الاصطناعي المتقدمة بسهولة.
كيفية الوصول إلى Pixtral 12B؟
Pixtral 12B متاح عبر روابط تورنت على منصات مثل Github وHugging Face، حيث يمكن للمطورين تنزيل النموذج وتخصيصه وفقًا لاحتياجاتهم.
كما يأتي النموذج مع ترخيص Apache 2.0 الذي يتيح استخدامه بحرية دون قيود.
و حتى وقت كتابة هذا المقال، لم تكن هناك عروض توضيحية مباشرة للنموذج على الويب، ولكن حسب تصريحات Sophia Yang، رئيسة قسم العلاقات مع المطورين في Mistral، فإنه قريبًا سيكون متاحًا للاختبار عبر منصات الشركة Le Chat وLe Plateforme.
بالختام، فإن شركة Mistral AI تثبت من خلال إطلاق Pixtral 12B أنها مستعدة للوقوف في وجه عمالقة الذكاء الاصطناعي.
و من خلال تقديم نموذج مفتوح المصدر متعدد الوسائط، تسهم الشركة في دفع حدود الابتكار وتحقيق تقدم ملموس في مجالات معالجة النصوص والصور.
ومع توفر النموذج قريبًا على منصات الشركة، سيكون لدى المطورين فرصة لاستكشاف إمكانياته وتطبيقها في مختلف المجالات، مما يجعل هذا النموذج خطوة مهمة في مشهد الذكاء الاصطناعي الحالي.