دليل مواقع وأدوات و تطبيقات الذكاء الاصطناعي

Gemini 2.0: مزايا أحدث نماذج جوجل، وتجربتي مع إصداره التجريبي

أعلنت شركة جوجل عن إطلاق نموذج Gemini 2.0، الذي يُعد أحدث إضافة إلى مجموعة نماذج الذكاء الاصطناعي التابعة لها.

ويتميز النموذج الجديد بتوسيع نطاق قدراته ليشمل إنتاج النصوص والصور والأصوات بشكل أصلي، ليظهر تطورًا واضحًا مقارنة بالإصدارات السابقة.

وفي هذا الإطار، صرح ديميس هسابيس، الرئيس التنفيذي لشركة DeepMind التابعة لجوجل، أن Gemini 2.0 يحقق أداءً يفوق الإصدار 1.5 Pro في معظم الجوانب، مع الحفاظ على نفس الكفاءة من حيث السرعة والتكلفة. وأضاف أن الشركة تعمل على تحسين الأمان من خلال اختبار "الوكلاء" في بيئات معزولة قبل الإطلاق.

جدول مقارنة أداء Gemini 2.0 Flash مع Gemini 1.5 Pro و Gemini 1.5 Flash في مختلف مهام الذكاء الاصطناعي، مثل البرمجة، الرياضيات، فهم الصور، ومعالجة الفيديو
المصدر: جوجل

الميزات الجديدة في جيميني 2.0

يتضمن النموذج تحسينات رئيسية تشمل قدرته على:

١. إنشاء الصور والأصوات، حيث يستطيع النموذج إنتاج صور وأصوات متكاملة، بالإضافة إلى تعديل هذه الوسائط بناءً على طلب المستخدم. كما يمكنه الإجابة عن الأسئلة المتعلقة بالصور ومقاطع الفيديو التي يرفعها المستخدم.

٢. توليد الأصوات بثمانية أنماط مختلفة تناسب اللغات واللهجات المختلفة. كما يمكنه التحدث بسرعات وأنماط مخصصة.

وعن هذه الخاصية يقول رئيس قسم المنتجات في نموذج جيميني في جوجل (تولسي دوشي): "يمكنك أن تطلب منه التحدث بشكل أبطأ، أو بشكل أسرع، أو يمكنك حتى أن تطلب منه أن يقول شيئًا مثل القراصنة".

٣. تكامل أكبر عن طريق دعم الوسائط المتعددة مثل الصور والفيديوهات والصوتيات.

٤. التفاعل مع خدمات جوجل مثل محرك البحث وتنفيذ الأكواد عبر أدوات متخصصة مثل Gemini Code Assist.

٥. تحليل المعلومات بدقة، مع تحسينات في تحليل النصوص الطويلة والقدرة على توليد محتوى أكثر دقة وارتباطًا بالمصادر.

الوصول إلى الإصدار التجريبي Gemini 2.0 Flash

واجهة Gemini 2.0 Flash في Google AI Studio، حيث تظهر المزايا الجديدة للنموذج على اليسار

يتوفر الإصدار التجريبي Gemini 2.0 Flash الآن من خلال منصات Google AI Studio وVertex AI، حيث يمكن للمطورين الاستفادة من وظائفه التجريبية. ومع ذلك، فإن ميزات إنشاء الصور والأصوات متاحة فقط لشركاء الوصول المبكر، ومن المتوقع أن تُتاح بشكل أوسع في يناير 2025.

تعرف على كيفية الوصول الى نماذج جيميني في AI Studio، وتجربتها مجانًا.

كما أطلقت جوجل واجهة برمجية جديدة باسم "Multimodal Live API"، التي تسمح للمطورين بإنشاء تطبيقات تعمل في الوقت الفعلي باستخدام الصوت والفيديو.

تجربة مميزة مع Gemini 2.0 Flash

في اختباري السريع لبعض مزايا هذا الإصدار، بدأت بتفعيل وضع الصوت ثم أرسلت سؤالًا كتابيًا أولًا: "أيهما أكبر 9.9 أم 9.11؟". إنه السؤال التقليدي الشائع الذي يختبر به الكثير من الناس قدرة النماذج على الحساب المنطقي. وربما أصبحت معظم الروبوتات التي تم إصدارها مؤخرًا من الشركات الكبيرة تجيب على هذا السؤال.

التحدث صوتياً مع Gemini 2.0 Flash واختبار قدراته بطرح سؤال

لكن الهدف كان تجربة تحليله الصوتي للإجابة، (والتي أجابها بشكل صحيح).

كانت لهجته تبدو سعودية. وللتحقق من إمكانية تحدثه بلهجات عربية أخرى استأنفت معه الحديث، ولكن هذه المرة مستخدمًا صوتي، طالبًا إياه التحدث باللهجة المصرية.

أجابني نعم سأحدثك بها، لكن لم يكن هناك فارق مع لهجته السابقة. وذلك حدث حتى في حالة تغيير صوت المعلق.

انتقلت لخيار الشات المرئي، فعلت وضع الكاميرا أمام أجندتي التي يظهر أعلاها قلم، وسألته ماذا يرى؟ 

مثال يوضح التفاعل المرئي مع جيميني 2.0 فلاش

وكان الأمر بسيطًا بالنسبة له، فلم يلبث حتى أعطى إجابة دقيقة بشكل كبير.

بعد ذلك، توجهت لتجربة ميزة الفهم المكاني "Spatial understanding"، والتي تقوم بالإجابة عن استفساراتك حول الصور وتحليلها بشكل مميز، والتعرف على العناصر الموجودة بها، سواء كانت ثنائية الأبعاد أو ثلاثية الأبعاد.

ولتجربة هذه الخاصية اضغط على خيار "Starter Apps"، ثم قم باختيارها. بعد ذلك، اخترت أحد الصور من الأمثلة المعروضة في الواجهة.

اخترت أولًا التحليل ثنائي الأبعاد (2D bounding boxes)، حيث طلبت من الأداة تحديد كل العناصر بالصورة، وقد أدت المهمة بنجاح تام.

ميزة ادخال الوسائط المتعددة مثل الصور، حيث تظهر قوة Gemini 2.0 Flash في فهم وتحليل عناصر الصورة بطريقة ثنائية الأبعاد "2D bounding boxes"

ثم اختبرت قدرة الفحص الثلاثي الأبعاد من خلال خيار "3D bounding boxes"، مع أمر بتحديد كل العناصر ثلاثية الأبعاد بالصورة، ونجحت الأداة كذلك في تنفيذه.

اكتشاف العناصر ثلاثية الأبعاد في الصور (3D bounding boxes). باستخدام Gemini 2.0 Flash

نحو "عصر وكلاء الذكاء الاصطناعي"

تتوقع جوجل أن يكون عام 2025 بداية "عصر الوكلاء"، حيث سيصبح الذكاء الاصطناعي قادرًا على أداء المهام بشكل مستقل، مع التركيز على تحسين الأداء ومعالجة التحديات الأمنية.

وتشمل المشاريع الجديدة المرتبطة بـ Gemini 2.0 أدوات متخصصة مثل "مشروع مارينر" لتصفح الإنترنت بشكل ذكي و"برنامج Jules" الذي يساعد المطورين في اكتشاف الأخطاء البرمجية وإصلاحها.

Related Posts

بالتجربة| تقييم أفضل أدوات التصميم وتوليد الصور بالذكاء الاصطناعي مجانًا 2025
  • ديسمبر 26, 2024

نظرة على مولدات صور الذكاء الاصطناعي في بداية رحلتي مع توليد أدوات الصور بالذكاء الاصطناعي، كنت أشعر بسعادة غامرة عندما تمكنت…

اقرأ المزيد

كل ما تريد معرفته عن Gemini: نماذج جوجل للذكاء الاصطناعي
  • ديسمبر 23, 2024

تسعى شركة جوجل باستمرار إلى تطوير ودمج تقنيات الذكاء الاصطناعي في مختلف منتجاتها وخدماتها. ويُعد مشروع Gemini أحد أبرز هذه الجهود،…

اقرأ المزيد

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

مقالات قد تهمك

ChatGPT تطلق ميزة “المهام”: مساعدك الشخصي المدعوم بـ GPT-4o

    ChatGPT تطلق ميزة “المهام”: مساعدك الشخصي المدعوم بـ GPT-4o

    نموذج OpenAI O1 يثير الجدل: لماذا يفكر بالصينية أثناء الإجابة؟

      نموذج OpenAI O1 يثير الجدل: لماذا يفكر بالصينية أثناء الإجابة؟

      LlamaV-o1: نموذج ذكاء اصطناعي عربي يشرح تفكيره متفوقًا على Claude 3.5

        LlamaV-o1: نموذج ذكاء اصطناعي عربي يشرح تفكيره متفوقًا على Claude 3.5

        AIConvert: موقع ذكاء اصطناعي عربي مجاني لإنشاء وتعديل وترميم الصور

          AIConvert: موقع ذكاء اصطناعي عربي مجاني لإنشاء وتعديل وترميم الصور

          أفضل نماذج الذكاء الاصطناعي الأقل هلوسة – تحليل شامل

            أفضل نماذج الذكاء الاصطناعي الأقل هلوسة – تحليل شامل