Llama 3.2: التفاعل البصري والصوتي بأصوات المشاهير. كيف تستخدمه مجانًا

في يوم 25 سبتمبر الماضي، أعلنت شركة ميتا عن إطلاق نموذجها الجديد Llama 3.2.

هذا الإصدار لا يقتصر على معالجة النصوص فقط، بل يمتد ليشمل الفهم البصري.

حيث تسمح للمستخدمين بالتفاعل مع كل من الصور والنصوص في نفس الوقت.

بالإضافة إلى ميزة التفاعل الصوتي الجديدة، و التحدث بأصوات المشاهير.

لذا دعونا نتعرف أكثر على مزايا هذا الإصدار و قدراته، و كيفية الوصول المجاني.

ما الجديد في Llama 3.2؟

يأتي Llama 3.2 مع مجموعة متنوعة من النماذج، منها النماذج الصغيرة والمتوسطة التي تحتوي على 11 مليار و90 مليار من المعلمات.

و يتميز بالقدرة على الاستخدامات المتعلقة بالصور، حيث يمكنها فهم الرسوم البيانية والرسومات، وتوليد تسميات توضيحية للصور.

ببساطة، أدخل إلى النموذج جداول الرسوم البيانة الخاصة بأعمالك، و أبدأ في سؤاله عن حجم مبيعاتك في أحد الشهور. أو ارفع له مجموعة من الصور التعليمية في دراستك و اطلب منه أن يشرحها لك.

علي سبيل المثال، أدخلت لإصدار Llama 3.2 11B Vision صورة لأداء شركات الأغذية السعودية في بعض الاعوام. ثم طلبت منه تقييم أداء أحد الشركات خلال الربع الثاني.

قوة نموذج Llama 3.2 في فهم الصور و تحليل البيانات

«هذا هو أول نموذج متعدد الوسائط مفتوح المصدر لدينا، وسوف يتيح العديد من التطبيقات التي تتطلب الفهم البصري» كانت هذه كلمة مارك زوكربيرج الرئيس التنفيذي لشركة Meta حول إصدار 3.2

و بالإضافة إلى ذلك، تم تقديم نماذج خفيفة من النصوص فقط (1 مليار و3 مليار)، والتي يمكن استخدامها على الأجهزة الخفيفة.

حيث يستطيع المطورون الآن بناء تطبيقات تعمل على أجهزة المستخدمين مباشرة، و هو ما يزيد من الخصوصية ويجعل الاستجابة أسرع.

و مثل الاصدار السابق Llama 3.1، يدعم النموذج الجديد طول سياق يصل إلى 128,000 رمز، مما يسمح لك بإدخال نصوص ضخمة تصل إلى مئات الصفحات.

تقييم الأداء و مقارنة لاما 3.2 مع نماذج الذكاء الاصطناعي

من خلال تجاربها، أشارت ميتا ايه آي أن نماذجها الجديدة تتنافس بقوة مع نماذج رائدة أخرى، مثل Claude 3 Haiku وGPT-4o-mini، في مهام التعرف على الصور والفهم البصري.

و تظهر نتائج التقييم أن نماذج Llama 3.2 تتفوق في العديد من المهام مقارنةً بهذه النماذج.

تفوق نموذج Llama-3.2 على Claude 3 Haiku و GPT-4o mini — مقارنة مترجمة للعربية من Arab AI
مصدر المقارنة: Meta AI

كما أظهرت النتائج أن نموذج 3B يتفوق على Gemma 2 2.6B وPhi 3.5-mini في مهام مثل اتباع التعليمات، تلخيص المحتوى، إعادة كتابة العبارات.

و رغم حجم النموذج 1B، إلا أنه أثبت نفسه أيضًا في المنافسة، مما يعكس قوة هذه النماذج في مجموعة متنوعة من التطبيقات.

و قد وضحت الشركة الى أنه قد تم تقييم أداء النماذج على أكثر من 150 مجموعة بيانات مرجعية تتضمن لغات مختلفة.

إن كنت مهتمًا بالمقارنات، يمكنك أيضًا الاطلاع على مقارنة بين نماذج الذكاء الاصطناعي Llama و GPT-4o mini و Claude-3.5، و التي أجريناها سابقًا.

ابتكار في النماذج: lightweight وpowerful

في Llama 3.2، تم استخدام تقنيتين رئيسيتين: القطع والتقطير، مما جعل نماذج 1B و3B أولى نماذج Llama خفيفة الوزن القادرة على العمل بكفاءة على الأجهزة.

القطع يعني تقليل حجم النموذج الحالي مع الحفاظ على أدائه. استخدمت ميتا تقنية تقطيع هيكلية لنموذج Llama 3.1 8B، حيث تمت إزالة أجزاء من الشبكة مع ضبط الأوزان لتحقيق كفاءة أعلى.

أما التقطير فهو تقنية تعتمد على استخدام نموذج أكبر (مثل Llama 3.1 8B) لنقل المعرفة إلى نموذج أصغر، مما يساعده على تحقيق أداء أفضل. حيث تم الاعتماد على نتائج النماذج الأكبر لتدريب النماذج الصغيرة.

و لتسهيل الابتكار على هذه النماذج، تعاونت ميتا مع شركات بارزة مثل Qualcomm وMediatek وArm، مما سيسمح للنماذج بالعمل بشكل أسرع على الأجهزة المحمولة.

التفاعل الصوتي مع لاما ٣.٢ – Meta AI Voice

و لا تتوقف قوة Llama 3.2 عند هذا الحد، فقد أثمرت الجهود المستمرة لشركة ميتا لجعل الذكاء الاصطناعي أكثر تفاعلية.

حيث تم تضمين ميزات جديدة تسمح للنموذج بالرد على الأوامر الصوتية أو النصية باستخدام أصوات مشاهير مثل جودي دنش وجون سينا، مما يضيف لمسة إنسانية إلى التفاعل مع الذكاء الاصطناعي.

و يؤكد مارك على ذلك: «أعتقد أن الصوت سيكون وسيلة أكثر طبيعية للتفاعل مع الذكاء الاصطناعي من النص. إنه أفضل بكثير».

من المقرر إطلاق ميزة الصوت الجديدة من ميتا في الولايات المتحدة و المناطق الناطقة بالانجليزية خلال الأيام القليلة المقبلة. وذلك عبر تطبيقاتها المتعددة و التي تشمل فيسبوك، انستجرام و واتساب.

طرق الوصول المجاني والاستخدام أونلاين، أو تحميل Llama 3.2

١. تنزيل وتشغيل النموذج على الجهاز: يمكنك الآن تنزيل Llama 3.2 وتشغيله على جهازك من خلال الروابط التالية:

تنزيل نماذج لاما 3.2

صفحة Meta Llama على منصة Hugging Face.

٢. الاستخدام المجاني مباشرة من خلال مشاريع هاجنج فيس

Llama 3.2 11B

3B instruct

٣.التحدث مع النماذج 11B و90B

هذه النماذج متاحة على منصة MultiChat. حيث توفر المنصة باقة مجانية تتيح لك التفاعل النصي، ولكن بدون ميزة القدرة على رفع الصور، والتي تتطلب الاشتراك المدفوع.

٤. التفاعل الصوتي مع النموذج 90B عبر منصة Groq

تجدر الإشارة إلى شركة Grok الرائدة في معالجة نماذج الذكاء الاصطناعي كانت قد قدمت ميزة التحدث الصوتي في الاصدار السابق Llama 3.1. وقد أتاحت الآن Llama 3.2 عبر منصتها.

حيث يمكنك التحدث صوتيا مع النموذج الأكبر 90B عبر منصة Groq، التي توفر تجربة معالجة سريعة.

فعلى سبيل المثال، طلبت منه صوتيًا أن يعطيني كود بايثون لتشغيل لعبة بسيطة على هاتفي، وقد أجاب طلبي بسرعة تُقدر بـ 335 رمزًا في الثانية.