دليل مواقع وأدوات و تطبيقات الذكاء الاصطناعي

EzAudio | تحويل النص إلى صوت واقعي وإنشاء مؤثرات صوتية بال AI

قامت شركة Tencent AI Lab بالتعاون مع باحثين من جامعة جونز هوبكنز بإطلاق أداة جديدة تُدعى EzAudio، وهي مصممة لتحويل النصوص إلى أصوات بطريقة طبيعية وواقعية.

هذه الأداة تمثل خطوة كبيرة في مجال تحويل النص إلى صوت (Text-to-Audio T2A)، حيث يمكنها توليد مؤثرات صوتية مميزة بمجرد كتابة الأوامر النصية.

 

كيف تعمل أداة EzAudio؟

هذه الأداة تتيح لك تحويل أي كلام مكتوب إلى صوت واقعي، باستخدام تقنيات ذكاء اصطناعي متقدمة.

و هذا يجعلها خيارًا ممتازًا لصناع المحتوى، و الأشخاص الذين يرغبون في إنشاء مؤثرات صوتية مخصصة بسهولة.

فبدلاً من استخدام تقنيات معقدة لفهم البيانات الصوتية، تعتمد EzAudio على نظام حديث يُسهل إنتاج الصوت بشكل أسرع وأكثر دقة.

و ما يجعل هذه الأداة مميزة هو قدرتها على التعديل الصوتي بناءً على تفاصيل صغيرة تكتبها في النص.

 

الشرح التقني للأداة بطريقة مبسطة 

أداة EzAudio تعتمد على تقنيات حديثة تُسمى "المحول الانتشاري" (Diffusion Transformer).

ببساطة، هذه التقنية تشبه الطريقة التي يتعلم بها الكمبيوتر فهم الأصوات عن طريق التدرج في التفاصيل، من الأصوات العامة إلى الأصوات الدقيقة.

فمثلًا، إذا طلبت من الأداة توليد صوت كلب ينبح، فإنها تبدأ ببناء الصوت بشكل تدريجي حتى يبدو أقرب ما يكون إلى الحقيقة.

كما أن الأداة تستخدم تقنية "RoPE" والتي تُساعد في تحديد مكان كل جزء من الصوت بدقة.

لذا، فإن هذه التقنيات تجعل EzAudio قادرة على إنتاج أصوات طبيعية وواقعية جدًا.

 

مصادر التعرف على المشروع

عبر arxiv.org 

ورقة المشروع

النموذج في GitHub

 


توليد مؤثرات صوتية بالذكاء الاصطناعي مجانًا  باستخدام EzAudio  

النموذج متاح الآن للاستخدام المجاني على منصة هاجنج فيس

جرب الأداة من هنا

أداة EzAudio في Hugging Face لتحويل النص إلى مؤثرات صوتية واقعية بالذكاء الاصطناعي

و كما يظهر في الصورة المرفقة، يمكن لأي شخص استخدام الأداة بسهولة. عند فتح الأداة، ستجد أمامك مربعًا لإدخال النص الذي ترغب في تحويله إلى صوت.

  1. إدخال النص: يمكنك إدخال نص بسيط مثل "a dog barking in the distance" (كلب ينبح في المسافة).
  2. توليد الصوت: اضغط على زر "Generate" (توليد)، وستقوم الأداة بإنتاج الصوت بناءً على النص المدخل.

 

أمثلة نصية بالإنجليزية مع الترجمة العربية

إليك مجموعة من الامثلة التي قمت باستخدامها مع الأداة

  • The sound of a gentle breeze blowing through trees.
    (صوت نسيم لطيف يمر عبر الأشجار).
  • Footsteps echoing in an empty hallway.
    (خطوات تتردد في ممر فارغ).
  • A river flowing calmly over rocks.
    (نهر يتدفق بهدوء فوق الصخور).
  • Birds chirping at dawn in a peaceful forest.
    (العصافير تزقزق عند الفجر في غابة هادئة).
  • Heavy rain pouring down on a tin roof.
    (أمطار غزيرة تتساقط على سقف معدني)

كل هذه الأمثلة توضح مدى سهولة الاستخدام، حيث يمكنك ببساطة كتابة ما تريد سماعه، وتقوم الأداة بتوليد الصوت المناسب.

 

إعدادات متقدمة

إذا كنت ترغب في تخصيص الصوت بشكل أكثر تفصيلاً، توفر الأداة إعدادات متقدمة تمكنك من التحكم في الجودة أو التعديلات الدقيقة. على سبيل المثال، يمكنك التحكم في سرعة الصوت أو عمق الصوت لجعله يناسب متطلباتك.

تعرف أيضًا Fish Audio لاستنساخ الاصوات مجانًا

 

مستقبل تحويل النص إلى صوت

بفضل هذه التقنيات، من المتوقع أن يصبح استخدام الصوت التوليدي جزءًا أساسيًا في العديد من التطبيقات مثل التعليم عن بُعد، تطوير الألعاب، وحتى المساعدين الافتراضيين. ومن خلال أدوات مثل EzAudio، يمكن للمستخدمين الوصول إلى أصوات واقعية تضيف بعدًا جديدًا لتجاربهم.

تعرف على المزيد من الأدوات في دليلنا الشامل.

Khaled B.

خبير في الذكاء الاصطناعي يتمتع بخبرة واسعة في تطوير وتنفيذ حلول متقدمة باستخدام أحدث تقنياته. مُتخصص في توظيف هذه الإمكانيات لتحسين الأعمال وتحقيق الأرباح من خلال الابتكار التكنولوجي. لديه شغف لإيجاد استراتيجيات وحلول مبتكرة تساعد الشركات والأفراد على تحقيق أهدافهم من خلال تسخير هذه التكنولوجيا.

Related Posts

DimensionX لتحويل الصور إلى مشاهد ثلاثية ورباعية الأبعاد مجانًا

كثيرًا ما نبحث عن طرق لتحويل صورنا إلى مشاهد حركية تبدو واقعية. وفي هذا الاطار…

اقرأ المزيد

GenChess من جوجل: صمم قطع الشطرنج باستخدام Imagen 3

طرحت شركة جوجل تجربة جديدة باسم “GenChess” التي تسمح للمستخدمين بتصميم قطع شطرنج فريدة باستخدام…

اقرأ المزيد

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

مقالات قد تهمك

DimensionX لتحويل الصور إلى مشاهد ثلاثية ورباعية الأبعاد مجانًا

    DimensionX لتحويل الصور إلى مشاهد ثلاثية ورباعية الأبعاد مجانًا

    MyTimeMachine: التنبؤ بمظهرك في أعمار مختلفة بدقة عالية

      MyTimeMachine:  التنبؤ بمظهرك في أعمار مختلفة بدقة عالية

      ماسك يسعى قضائيًا لإيقاف تحول OpenAI إلى كيان ربحي

        ماسك يسعى قضائيًا لإيقاف تحول OpenAI إلى كيان ربحي

        كيف تم خداع الذكاء الاصطناعي لربح 50 ألف دولار!

          كيف تم خداع الذكاء الاصطناعي لربح 50 ألف دولار!

          ElevenLabs GenFM: أداة تنافس جوجل لإنتاج البودكاست وتدعم العربية

            ElevenLabs GenFM: أداة تنافس جوجل لإنتاج البودكاست وتدعم العربية