ElevenLabs Eleven v.3: تحويل النص إلى صوت بتعبيرات بشرية بأكثر من 70 لغة

صورة تعرض نص "ELEVENLABS ELEVEN V.3" مع ميكروفون كلاسيكي بارز على جانب، وأفراد متنوعون يظهرون تعابير وجه معبرة مثل الفرح والتفاعل على الجانب الآخر، مما يسلط الضوء على قدرات نموذج الصوت الاصطناعي.

كشفت شركة "ElevenLabs"، المعروفة بابتكاراتها في مجال تكنولوجيا الصوت المعتمدة على الذكاء الاصطناعي، عن النسخة التجريبية الأولية "ألفا" من أحدث نماذجها لتحويل النص إلى كلام، والذي يحمل اسم "Eleven v3".

ووصفت الشركة هذا النموذج بأنه الأكثر قدرة على التعبير حتى الآن، وهو يأتي بنقلة متطورة في درجة واقعية الصوت وقدرته على إيصال المشاعر الإنسانية، بالإضافة إلى دعمه لأكثر من سبعين لغة عالمية، تشمل العربية.

مميزات Eleven v3

يحمل "Eleven v3" في طياته قدرات فريدة تجعله يتجاوز مجرد قراءة النصوص. وبات بمقدوره الآن إضفاء طابع الأداء الحقيقي على الكلام، كأن يتخلله ضحك أو همس، أو أن يعبر عن مشاعر متنوعة مثل الغضب أو الحزن أو الإثارة.

وبات بوسع المستخدمين التحكم في هذه النبرات العاطفية بصورة مباشرة من خلال إدراج علامات صوتية بسيطة مثل [همسات] أو [ضحكات].

وأوضحت الشركة أن النموذج الجديد قادر على تغيير نبرة الصوت في منتصف الجملة بسلاسة، وحتى الغناء أو تغيير اللهجات وفقًا للتوجيهات.

صورة مصغرة لفيديو يوتيوب يعرض ميزات Eleven v3 الصوتية الجديدة

ومن بين الخصائص البارزة أيضًا في "Eleven v3" وضع الحوار المتقدم. هذا الوضع يجعل بالإمكان توليد محادثات بين عدة متحدثين تتسم بالطبيعية، بما في ذلك المقاطعات العفوية والتحولات الانفعالية الواقعية.

وفي خطوة هامة نحو العالمية، وسعت "ElevenLabs" نطاق دعم اللغات في نموذجها الجديد من ثلاث وثلاثين لغة ليصل إلى ما يزيد عن سبعين لغة، وهو أمر من شأنه تغطية حوالي تسعين بالمئة من سكان العالم.

تحكم كامل في العواطف وطريقة الإلقاء والإشارات

في تعليقه على هذا التطور، صرح ماتي ستانيسفسكي، الشريك المؤسس والرئيس التنفيذي لشركة "إيلفن لابز"، قائلاً: "إن هذا الإصدار هو ثمرة رؤية وقيادة شريكي المؤسس بيوتر [دابكوفسكي] وفريق البحث المذهل الذي بناه".

وأردف ستانيسفسكي: "يعد 'Eleven v3' النموذج الأكثر تعبيرًا على الإطلاق في مجال تحويل النص إلى كلام، فهو يأتي بتحكم كامل في العواطف وطريقة الإلقاء والإشارات غير اللفظية".

وأشار إلى أن بناء منتج جيد أمر صعب، لكن إحداث نقلة نوعية جديدة بالكامل يكاد أن يكون مستحيلاً، معربًا عن حماس الفريق لدفع حدود الابتكار مرة أخرى.

وقد جرى تصميم "Eleven v3" خصيصًا لمنشئي المحتوى والمطورين والشركات الطامحة لإنتاج مواد صوتية غنية بالتعبير. وتشمل تطبيقاته الكتب الصوتية، والقصص المعتمدة على أداء الشخصيات، وحوارات ألعاب الفيديو، بالإضافة إلى المواد التعليمية والتعليقات الصوتية الاحترافية.

الوصول إلى الأداة وقيودها الحالية

النسخة التجريبية "ألفا" من "Eleven v3" متاحة حاليًا عبر موقع الشركة الإلكتروني (elevenlabs.io).

في هذا السياق، أعلنت الشركة عن تخفيض ترويجي بنسبة ثمانين بالمئة على استخدام النموذج عبر واجهة المستخدم حتى نهاية شهر يونيو/حزيران.

ورغم الإمكانيات الهائلة، نوهت "ElevenLabs" إلى أن النسخة الحالية، نظرًا لطبيعتها التجريبية، قد تحتاج إلى جهد أكبر في هندسة التلقين، وأن زمن استجابتها قد لا يكون مثاليًا للتطبيقات الفورية أو الحوارات اللحظية في الوقت الراهن.

ولهذا السبب، أوصت الشركة بالاستمرار في استخدام نماذجها الأخرى مثل "v2.5 توربو" و "فلاش" لهذه السيناريوهات. رغم ذلك، فالعمل جارٍ على تطوير نسخة من "v3" تتعامل مع العمل في الزمن الفعلي.

ومن المنتظر أيضًا توفير واجهة برمجة تطبيقات عامة (API) قريبًا لمنح المطورين قدرة أكبر على دمج هذه التقنية في تطبيقاتهم.