NotebookLlama: مشروع ميتا المفتوح لتوليد بودكاست بالذكاء الاصطناعي

أعلنت Meta عن إطلاق مشروع NotebookLlama، وهو نسخة مفتوحة المصدر تستهدف تقديم تجربة توليد بودكاست مشابهة لتلك المتوفرة في أداة NotebookLM من جوجل.

ويعتمد المشروع الجديد على نماذج Llama الخاصة بميتا لمعالجة النصوص وتوليد ملخصات صوتية بأسلوب تفاعلي يشبه البودكاست.

ورغم أن هذه التقنية تقدم إمكانات واعدة، إلا أنها لا تزال تواجه بعض التحديات التقنية التي تستحق الدراسة.

كيف تعمل NotebookLlama؟

١. يقوم الأداة بتحويل الملفات النصية، مثل مقالات الأخبار أو المدونات، إلى نصوص مكتوبة أولاً.

٢. وبعد ذلك، يتم إضافة عناصر درامية وتوقفات بين المقاطع لجعل النص يبدو وكأنه حوار طبيعي.

٣. ثم يستخدم المشروع نماذج text-to-speech مفتوحة المصدر لتحويل النص إلى صوت.

ومع ذلك، تُظهر بعض الأمثلة الصوتية أن الجودة لا تزال متأثرة بخصائص صوتية ميكانيكية وغير طبيعية، حيث تتداخل الأصوات أحيانًا بطريقة غير متناسقة.

مخطط NotebookLlama

الخطوة 1: معالجة PDF

استخدام نموذج Llama-3.2-1B-Instruct

«أنشئ PDF مع الحفاظ على السياق»
⟵

الخطوة 2: كتابة نص البودكاست

نموذج Llama-3.1-70B-Instruct

«حوّل هذا النص إلى بودكاست»
⟵

الخطوة 3: إضافة دراما

نموذج Llama-3.1-8B-Instruct

«اجعل هذا البودكاست أكثر درامية»
⟵

الخطوة 4: توليد الصوت

باستخدام Parler-tts-mini-v1 وbark/suno

«إنتاج ملف Podcast.mp3»

ورغم الجهود المبذولة، أشار باحثو Meta إلى أن النماذج الصوتية الحالية تمثل تحديًا رئيسيًا أمام تحقيق صوت طبيعي بالكامل.

وذكروا على صفحة المشروع في GitHub أن «النموذج الصوتي هو العامل المحدد لمدى طبيعية الصوت». واقترحوا أيضًا مفهومًا جديدًا يتمثل في توليد سيناريوهات بودكاست من خلال حوار بين شخصيتين، عوضًا عن استخدام نموذج واحد فقط لإنشاء المخطط الأساسي.

Wow! Meta dropped an open NotebookLM recipe: NotebookLlama 🔥

It uses L3.2 1B/ 3B for pre-processing the PDF, L3.1 70B for Transcript creation, L3.1 8B for re-writes and Parler TTS for Text to Speech ⚡

Step 1: Pre-process PDF: Use Llama-3.2-1B-Instruct to pre-process the PDF… pic.twitter.com/L7hb5GsMtl— Vaibhav (VB) Srivastav (@reach_vb) October 27, 2024

والجدير بالذكر أن NotebookLlama ليست المحاولة الأولى لتكرار ميزات NotebookLM، إذ سبقتها مشاريع أخرى حققت نتائج متفاوتة.

ومع ذلك، فإن التحدي الأكبر الذي تواجهه جميع المشاريع، بما في ذلك Google NotebookLM ، هو مشكلة «الهلاوس«، حيث قد تحتوي البودكاستات المُولدة بواسطة الذكاء الاصطناعي على معلومات غير دقيقة أو مختلقة.

اكتشف كيف يمكنك إنشاء بودكاست صوتي باستخدام أداة جوجل مجانًا.

يشير تقديم هذا النموذج الجديد إلى أن Meta تسعى إلى توسيع نطاق استخدام الذكاء الاصطناعي في توليد المحتوى الصوتي، مع التركيز على مجتمع المصادر المفتوحة.

ورغم التحديات الحالية، مثل تحسين جودة الصوت ومعالجة مشكلة الهلاوس، فإن المشروع يحمل إمكانيات تطوير كبيرة قد تغير شكل توليد هذا النوع من المحتوى في المستقبل.

NotebookLlama: مشروع ميتا المفتوح لتحويل النص إلى بودكاست

كيف تعمل NotebookLlama؟

مخطط NotebookLlama

الخطوة 1: معالجة PDF

الخطوة 2: كتابة نص البودكاست

الخطوة 3: إضافة دراما

الخطوة 4: توليد الصوت

مقالات ذات صلة

رقابة أبوية من ميتا: أدوات جديدة للتحكم في تفاعل المراهقين مع الذكاء الاصطناعي

أزمة المواهب في آبل: مسؤول بحث الذكاء الاصطناعي كي يانغ ينتقل إلى ميتا

Veo 3 Fast: نسخة جديدة لصناعة مقاطع الفيديو بالصوت بسرعة فائقة

ميتا تستخدم الخيام في بناء مراكز بيانات الذكاء الاصطناعي

التعليقات

لا توجد تعليقات بعد