دليل مواقع وأدوات و تطبيقات الذكاء الاصطناعي

Voxtral: تحويل الصوت لنص عربي مجانًا – نموذج ميسترال بديل Whisper

أعلنت شركة ميسترال الفرنسية الناشئة عن إطلاق "Voxtral"، وهي أول عائلة من نماذجها الصوتية المفتوحة المصدر.

ويأتي هذا الإعلان لينهي الانتظار الطويل في مجتمع المطورين لظهور بديل حقيقي لنموذج "Whisper" من OpenAI، بل ويتجاوزه في قدراته.

يقدم Voxtral نفسه كحل لمعضلة لطالما واجهت المطورين: الاختيار بين الأنظمة المفتوحة المصدر ذات الأداء المحدود، والواجهات البرمجية القوية والمغلقة باهظة الثمن.

واليوم، تدخل ميسترال بقوة لتكسر هذه القاعدة، مقدمةً أداة تجمع بين الأداء الفائق والوصول المفتوح، وبسعر تقول الشركة إنه أقل من نصف تكلفة الحلول المنافسة.

مزايا Voxtral.. من النسخ إلى الفهم العميق

يكمن الفارق الجوهري في Voxtral في قدرته على فهم المحتوى الصوتي الذي يقوم بنسخه، وليس فقط تحويل الكلام إلى نص.

وبينما كانت النماذج السابقة، مثل Whisper، تتطلب ربطها بنماذج لغوية أخرى لتفسير المعنى، يأتي Voxtral بقدرات فهم مدمجة أصلاً، وهذا بفضل اعتماده على بنية نموذج "Mistral Small 3.1" اللغوي.

في هذا الإطار، يفتح النموذج الجديد مجالات واسعة للتطبيقات الصوتية الذكية. فبإمكانه تحليل ملفات صوتية طويلة تصل مدتها إلى 40 دقيقة، والإجابة عن أسئلة تتعلق بمحتواها، أو إنشاء ملخصات دقيقة لها.

وقالت الشركة إن هذه القدرات تأتي مدمجة دون الحاجة إلى عمليات برمجية معقدة.

ولعل أبرز ما يقدمه هو ميزة "استدعاء الوظائف" (Function-Calling) مباشرة من الأوامر الصوتية.

وبحسب التقارير، يمكن للمستخدم أن يوجه أمرًا صوتيًا مثل "أضف الحليب إلى قائمة التسوق"، ليقوم النموذج بالتفاعل مباشرة مع تطبيق إدارة المهام وتنفيذ الأمر، وهو ما يحول التفاعل الصوتي من مجرد إدخال سلبي إلى واجهة تحكم نشطة وفعالة.

أداء يتصدر المنافسة

تدعم ميسترال إعلانها بمجموعة من نتائج الاختبارات المعيارية التي تظهر تفوق Voxtral بشكل واضح.

ووفقًا للبيانات المنشورة، يتفوق النموذج على "Whisper large-v3" في مختلف المهام، بل وينافس بقوة نماذج مملوكة لشركات كبرى مثل "GPT-4o mini transcribe" من OpenAI و"Gemini 2.5 Flash" من جوجل.

رسم بياني يقارن أداء نماذج Voxtral مع Whisper وGemini وGPT-4o mnin transcribe، موضحًا معدل الخطأ في الكلمات (الأقل هو الأفضل) في مهام النسخ الصوتي باللغة الإنجليزية ومهام متعددة اللغات.
رسم بياني يقارن أداء نماذج Voxtral مع Whisper وGemini وGPT-4o mnin transcribe، موضحًا معدل الخطأ في الكلمات (الأقل هو الأفضل) في مهام النسخ الصوتي باللغة الإنجليزية ومهام متعددة اللغات.

من ناحية أخرى، تبرز قوة Voxtral في دعمه الأصلي للغات متعددة، حيث أظهر أداءً متطورًا في لغات عالمية مثل الإنجليزية والإسبانية والفرنسية والهندية والألمانية.

وأشارت الشركة إلى أن هذا التفوق، خصوصًا في اللغات الأوروبية، يجعله نظامًا واحدًا قويًا لبناء تطبيقات عالمية.

رسم بياني يوضح أداء Voxtral في اختبار FLEURS متعدد اللغات، مقارنًا معدل الخطأ في نسخ لغات مختلفة مثل الإيطالية والإسبانية والفرنسية والهندية والعربية.
رسم بياني يوضح أداء Voxtral في اختبار FLEURS متعدد اللغات، مقارنًا معدل الخطأ في نسخ لغات مختلفة مثل الإيطالية والإسبانية والفرنسية والهندية والعربية.

متاح للجميع مجانًا وبأكثر من طريقة

عملت "Mistral AI" على جعل نماذجها الجديدة في متناول الجميع.

وقدمت الشركة نسختين رئيسيتين: "Voxtral Small" الضخم والموجه لعمليات النشر على نطاق واسع، و"Voxtral Mini" الأصغر حجمًا والمثالي للتطبيقات التي تعمل على الأجهزة المحلية أو الطرفية.

ويمكن للمطورين تحميل كلا النموذجين بحرية تامة من منصة "Hugging Face" بموجب ترخيص "Apache 2.0" المتساهل.

أما للراغبين في حلول سحابية، وفرت الشركة واجهة برمجية (API) بتكلفة تبدأ من 0.001 دولارًا فقط للدقيقة الواحدة.

وتعمل الشركة أيضاً على دمج النموذج في واجهة المحادثة التابعة لها "Le Chat".

وبحسب الإعلان، سيصل هذا الوضع الصوتي للمستخدمين تدريجياً خلال الأسابيع المقبلة عبر الويب والهواتف المحمولة، ليمنحهم القدرة على تسجيل الصوت أو رفعه للحصول على نصوصه، وطرح أسئلة مباشرة حول محتواه، أو استخراج ملخصات له.

وبهذه الخطوة، لا تقدم ميسترال مجرد بديل، بل تضع معيارًا جديدًا لما يجب أن تكون عليه النماذج الصوتية المفتوحة المصدر.

ومع إعلانها عن خطط مستقبلية لإضافة مزايا مثل تحديد هوية المتحدث وتحليل المشاعر، يبدو أن مستقبل الذكاء الاصطناعي الصوتي سيكون في أمان، وهذه المرة، قد تكون قيادته فرنسية.

Khaled B.

خبير في الذكاء الاصطناعي يتمتع بخبرة واسعة في تطوير وتنفيذ حلول متقدمة باستخدام أحدث تقنياته. مُتخصص في توظيف هذه الإمكانيات لتحسين الأعمال وتحقيق الأرباح من خلال الابتكار التكنولوجي. لديه شغف لإيجاد استراتيجيات وحلول مبتكرة تساعد الشركات والأفراد على تحقيق أهدافهم من خلال تسخير هذه التكنولوجيا.

اقرأ أيضًا

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *