أعلنت Meta عن إطلاق مشروع NotebookLlama، وهو نسخة مفتوحة المصدر تستهدف تقديم تجربة توليد بودكاست مشابهة لتلك المتوفرة في أداة NotebookLM من جوجل.
ويعتمد المشروع الجديد على نماذج Llama الخاصة بميتا لمعالجة النصوص وتوليد ملخصات صوتية بأسلوب تفاعلي يشبه البودكاست.
ورغم أن هذه التقنية تقدم إمكانات واعدة، إلا أنها لا تزال تواجه بعض التحديات التقنية التي تستحق الدراسة.
كيف تعمل NotebookLlama؟
١. يقوم الأداة بتحويل الملفات النصية، مثل مقالات الأخبار أو المدونات، إلى نصوص مكتوبة أولاً.
٢. وبعد ذلك، يتم إضافة عناصر درامية وتوقفات بين المقاطع لجعل النص يبدو وكأنه حوار طبيعي.
٣. ثم يستخدم المشروع نماذج text-to-speech مفتوحة المصدر لتحويل النص إلى صوت.
ومع ذلك، تُظهر بعض الأمثلة الصوتية أن الجودة لا تزال متأثرة بخصائص صوتية ميكانيكية وغير طبيعية، حيث تتداخل الأصوات أحيانًا بطريقة غير متناسقة.
مخطط NotebookLlama
الخطوة 1: معالجة PDF
استخدام نموذج Llama-3.2-1B-Instruct
الخطوة 2: كتابة نص البودكاست
نموذج Llama-3.1-70B-Instruct
الخطوة 3: إضافة دراما
نموذج Llama-3.1-8B-Instruct
الخطوة 4: توليد الصوت
باستخدام Parler-tts-mini-v1 وbark/suno
ورغم الجهود المبذولة، أشار باحثو Meta إلى أن النماذج الصوتية الحالية تمثل تحديًا رئيسيًا أمام تحقيق صوت طبيعي بالكامل.
وذكروا على صفحة المشروع في GitHub أن "النموذج الصوتي هو العامل المحدد لمدى طبيعية الصوت". واقترحوا أيضًا مفهومًا جديدًا يتمثل في توليد سيناريوهات بودكاست من خلال حوار بين شخصيتين، عوضًا عن استخدام نموذج واحد فقط لإنشاء المخطط الأساسي.
Wow! Meta dropped an open NotebookLM recipe: NotebookLlama 🔥
— Vaibhav (VB) Srivastav (@reach_vb) October 27, 2024
It uses L3.2 1B/ 3B for pre-processing the PDF, L3.1 70B for Transcript creation, L3.1 8B for re-writes and Parler TTS for Text to Speech ⚡
Step 1: Pre-process PDF: Use Llama-3.2-1B-Instruct to pre-process the PDF… pic.twitter.com/L7hb5GsMtl
والجدير بالذكر أن NotebookLlama ليست المحاولة الأولى لتكرار ميزات NotebookLM، إذ سبقتها مشاريع أخرى حققت نتائج متفاوتة.
ومع ذلك، فإن التحدي الأكبر الذي تواجهه جميع المشاريع، بما في ذلك Google NotebookLM ، هو مشكلة "الهلاوس"، حيث قد تحتوي البودكاستات المُولدة بواسطة الذكاء الاصطناعي على معلومات غير دقيقة أو مختلقة.
اكتشف كيف يمكنك إنشاء بودكاست صوتي باستخدام أداة جوجل مجانًا.
يشير تقديم هذا النموذج الجديد إلى أن Meta تسعى إلى توسيع نطاق استخدام الذكاء الاصطناعي في توليد المحتوى الصوتي، مع التركيز على مجتمع المصادر المفتوحة.
ورغم التحديات الحالية، مثل تحسين جودة الصوت ومعالجة مشكلة الهلاوس، فإن المشروع يحمل إمكانيات تطوير كبيرة قد تغير شكل توليد هذا النوع من المحتوى في المستقبل.