أعلنت شركة جوجل عن إطلاق نموذج Gemini 2.0، الذي يُعد أحدث إضافة إلى مجموعة نماذج الذكاء الاصطناعي التابعة لها.
ويتميز النموذج الجديد بتوسيع نطاق قدراته ليشمل إنتاج النصوص والصور والأصوات بشكل أصلي، ليظهر تطورًا واضحًا مقارنة بالإصدارات السابقة.
وفي هذا الإطار، صرح ديميس هسابيس، الرئيس التنفيذي لشركة DeepMind التابعة لجوجل، أن Gemini 2.0 يحقق أداءً يفوق الإصدار 1.5 Pro في معظم الجوانب، مع الحفاظ على نفس الكفاءة من حيث السرعة والتكلفة. وأضاف أن الشركة تعمل على تحسين الأمان من خلال اختبار "الوكلاء" في بيئات معزولة قبل الإطلاق.
الميزات الجديدة في جيميني 2.0
يتضمن النموذج تحسينات رئيسية تشمل قدرته على:
١. إنشاء الصور والأصوات، حيث يستطيع النموذج إنتاج صور وأصوات متكاملة، بالإضافة إلى تعديل هذه الوسائط بناءً على طلب المستخدم. كما يمكنه الإجابة عن الأسئلة المتعلقة بالصور ومقاطع الفيديو التي يرفعها المستخدم.
٢. توليد الأصوات بثمانية أنماط مختلفة تناسب اللغات واللهجات المختلفة. كما يمكنه التحدث بسرعات وأنماط مخصصة.
وعن هذه الخاصية يقول رئيس قسم المنتجات في نموذج جيميني في جوجل (تولسي دوشي): "يمكنك أن تطلب منه التحدث بشكل أبطأ، أو بشكل أسرع، أو يمكنك حتى أن تطلب منه أن يقول شيئًا مثل القراصنة".
٣. تكامل أكبر عن طريق دعم الوسائط المتعددة مثل الصور والفيديوهات والصوتيات.
٤. التفاعل مع خدمات جوجل مثل محرك البحث وتنفيذ الأكواد عبر أدوات متخصصة مثل Gemini Code Assist.
٥. تحليل المعلومات بدقة، مع تحسينات في تحليل النصوص الطويلة والقدرة على توليد محتوى أكثر دقة وارتباطًا بالمصادر.
الوصول إلى الإصدار التجريبي Gemini 2.0 Flash
يتوفر الإصدار التجريبي Gemini 2.0 Flash الآن من خلال منصات Google AI Studio وVertex AI، حيث يمكن للمطورين الاستفادة من وظائفه التجريبية. ومع ذلك، فإن ميزات إنشاء الصور والأصوات متاحة فقط لشركاء الوصول المبكر، ومن المتوقع أن تُتاح بشكل أوسع في يناير 2025.
تعرف على كيفية الوصول الى نماذج جيميني في AI Studio، وتجربتها مجانًا.
كما أطلقت جوجل واجهة برمجية جديدة باسم "Multimodal Live API"، التي تسمح للمطورين بإنشاء تطبيقات تعمل في الوقت الفعلي باستخدام الصوت والفيديو.
تجربة مميزة مع Gemini 2.0 Flash
في اختباري السريع لبعض مزايا هذا الإصدار، بدأت بتفعيل وضع الصوت ثم أرسلت سؤالًا كتابيًا أولًا: "أيهما أكبر 9.9 أم 9.11؟". إنه السؤال التقليدي الشائع الذي يختبر به الكثير من الناس قدرة النماذج على الحساب المنطقي. وربما أصبحت معظم الروبوتات التي تم إصدارها مؤخرًا من الشركات الكبيرة تجيب على هذا السؤال.
لكن الهدف كان تجربة تحليله الصوتي للإجابة، (والتي أجابها بشكل صحيح).
كانت لهجته تبدو سعودية. وللتحقق من إمكانية تحدثه بلهجات عربية أخرى استأنفت معه الحديث، ولكن هذه المرة مستخدمًا صوتي، طالبًا إياه التحدث باللهجة المصرية.
أجابني نعم سأحدثك بها، لكن لم يكن هناك فارق مع لهجته السابقة. وذلك حدث حتى في حالة تغيير صوت المعلق.
انتقلت لخيار الشات المرئي، فعلت وضع الكاميرا أمام أجندتي التي يظهر أعلاها قلم، وسألته ماذا يرى؟
وكان الأمر بسيطًا بالنسبة له، فلم يلبث حتى أعطى إجابة دقيقة بشكل كبير.
بعد ذلك، توجهت لتجربة ميزة الفهم المكاني "Spatial understanding"، والتي تقوم بالإجابة عن استفساراتك حول الصور وتحليلها بشكل مميز، والتعرف على العناصر الموجودة بها، سواء كانت ثنائية الأبعاد أو ثلاثية الأبعاد.
ولتجربة هذه الخاصية اضغط على خيار "Starter Apps"، ثم قم باختيارها. بعد ذلك، اخترت أحد الصور من الأمثلة المعروضة في الواجهة.
اخترت أولًا التحليل ثنائي الأبعاد (2D bounding boxes)، حيث طلبت من الأداة تحديد كل العناصر بالصورة، وقد أدت المهمة بنجاح تام.
ثم اختبرت قدرة الفحص الثلاثي الأبعاد من خلال خيار "3D bounding boxes"، مع أمر بتحديد كل العناصر ثلاثية الأبعاد بالصورة، ونجحت الأداة كذلك في تنفيذه.
نحو "عصر وكلاء الذكاء الاصطناعي"
تتوقع جوجل أن يكون عام 2025 بداية "عصر الوكلاء"، حيث سيصبح الذكاء الاصطناعي قادرًا على أداء المهام بشكل مستقل، مع التركيز على تحسين الأداء ومعالجة التحديات الأمنية.
وتشمل المشاريع الجديدة المرتبطة بـ Gemini 2.0 أدوات متخصصة مثل "مشروع مارينر" لتصفح الإنترنت بشكل ذكي و"برنامج Jules" الذي يساعد المطورين في اكتشاف الأخطاء البرمجية وإصلاحها.