
كشفت شركة "هيوم" (Hume AI)، المتخصصة في أبحاث الذكاء الاصطناعي العاطفي، عن إطلاق الجيل الثالث من واجهتها الصوتية التعاطفية، المعروفة باسم EVI 3.
وأشارت الشركة إلى أن النموذج الجديد لا يقتصر على فهم الكلام فحسب، بل يدخل عالم المشاعر الإنسانية ويقدم للمستخدمين قدرة عالية على إنشاء أصوات ذكاء اصطناعي مخصصة تتسم بالواقعية والتعبير.
يأتي إطلاق EVI 3 في وقت يتسابق فيه عمالقة التقنية نحو تطوير نماذج ذكاء اصطناعي أكثر قدرة على التواصل بصورة طبيعية وشخصية.
وأفادت "Hume" أن EVI 3 يستطيع التفاعل مع المستخدمين عبر مجموعة واسعة جداً من الأصوات الشبيهة بالبشر.
وبدلاً من الاكتفاء بقائمة محددة من السمات الصوتية، يستطيع المستخدمون الآن وصف خصائص الصوت المرغوب بلغة طبيعية، ليتولى النموذج بعد ذلك مهمة إنشاء هذا الصوت.
تفتح هذه الميزة الباب أمام تجارب صوتية فريدة، سواء أكان المطلوب صوت "كوميديان عتيق" أم "مدرب حياة متمرس"، أو حتى شخصية الفيلسوف "ديفيد هيوم" الذي تحمل الشركة اسمه.

أداء يتفوق على المنافسين
تسعى "هيوم"، كما جاء على موقعها الإلكتروني، إلى "ضمان بناء الذكاء الاصطناعي لخدمة الأهداف البشرية والرفاهية العاطفية".
هذا التوجه، وإن كان يذكرنا بأهداف شركات كبرى في مجال الذكاء الاصطناعي مثل "OpenAI"، يتميز بتركيز "Hume" الدقيق على "مصداقية" نماذجها.
والهدف هنا أن تبدو المحادثات حقيقية، بكل ما تحمله من توقفات عفوية أو كلمات تردد بسيطة، وليس مجرد محاكاة صوتية آلية.
في هذا السياق، أظهرت اختبارات داخلية أجرتها "هيوم" أن EVI 3 قدم أداءً لافتاً عند مقارنته بنماذج صوتية رائدة أخرى.
ووفقًا لما ورد في مدونة الشركة، تفوق EVI 3 في جوانب مثل "تعديل المشاعر/الأسلوب" خلال المحادثة، وقدرته على "فهم المشاعر" في أصوات المستخدمين، متجاوزًا بذلك أداء نماذج مثل GPT-4o من "OpenAI" في هذه المقاييس المحددة.
وأشارت الشركة أيضًا إلى أن الاختبارات الأولية بينت زمن استجابة أقل لدى EVI 3 مقارنة بـ GPT-4o و Gemini Live في ظروف معينة.
الوصول إلى EVI 3
في الوقت الحالي، يستطيع المهتمون تجربة EVI 3 من خلال عرض توضيحي مباشر على موقع "hume.ai" الإلكتروني وكذلك عبر تطبيق الشركة على نظام iOS.
ومن المقرر إتاحة واجهة برمجة تطبيقات (API) للمطورين خلال الأسابيع القادمة، ما يفتح الباب لدمج هذه التقنية في تطبيقات وخدمات متنوعة، بدءًا من أنظمة دعم العملاء ووصولاً إلى القصص التفاعلية والألعاب.
ولم تعلن الشركة بعد عن تفاصيل أسعار واجهة برمجة التطبيقات لـ EVI 3، ولكن بالنظر إلى تسعير EVI 2 (الذي كان 0.072 دولار للدقيقة)، يتوقع أن يكون التسعير الجديد معتمداً على الاستخدام.
ويركز النموذج حاليًا على اللغة الإنجليزية، مع خطط مستقبلية لدعم لغات رئيسية أخرى مثل الفرنسية والإسبانية والألمانية والإيطالية، وذلك بعد المزيد من التدريب والإطلاق العام.
الجدير بالذكر أن ميزة استنساخ الصوت، التي تقدمها شركات أخرى، ليست متاحة حاليًا في EVI 3.
حيث تركز "Hume" على التخصيص المرن للأصوات مع تأكيدها على أهمية الضمانات والاعتبارات الأخلاقية قبل طرح مثل هذه الميزات على نطاق واسع، وإن كانت هناك إشارات إلى إمكانية إضافة هذه القدرة لنموذجها Octave لتحويل النص إلى كلام في المستقبل.