
أعلنت جوجل في 12 مارس عن تقديم مزايا قوية لإنشاء وتعديل الصور بالذكاء الاصطناعي باستخدام برنامجها Gemini 2.0 Flash.
هذه الميزة، التي كانت متاحة في البداية لمجموعة محدودة من المختبرين، أصبحت متاحة الآن للمطورين عبر Google AI Studio وواجهة Gemini API،
تم طرح هذا النموذج في ديسمبر الماضي ضمن الجيل الأحدث من إصداراتها، التى تأتي تحت اسم Gemini 2.0.
وبالإضافة إلى سرعته، يتميز أيضًا Flash 2.0 بقدرته على استقبال الإدخالات متعددة الوسائط مثل الفيديوهات والملفات، والتفكير المعزز وفهم اللغة الطبيعية لتوليد الصور.
تعرف على قدرات Gemini 2.0 Flash وتجربتي معه.
كما يمكنك استخدامه من خلال موقع gemini.google.com وكذلك عبر تطبيق جيميني الرسمي.
ولكن الجديد هنا هو إمكانية تجربة قدرات النموذج المحسنة في إنشاء الصور، وذلك من خلال إصدار تجريبي جديد باسم gemini-2.0-flash-exp.
ويمنح هذا الإصدار المستخدمين القدرة على إنتاج صور مدمجة بالنصوص، مع تحسينات واضحة في جودة الإخراج البصري وقدرات التحرير عبر الدردشة.
وأستطيع القول بثقة أنه من بين أفضل الأدوات التي يمكنك استخدامها في مجال التصميم بالذكاء الاصطناعي.
طريقة الوصول إلى إصدار جوجل الجديد
للبدء في استخدامه، توجه إلى الرابط التالي وهو الخاص بالنموذج على منصة AI Studio.
يمكنك اختباره بشكل مجاني تمامًا مع حدود يومية تصل إلى 1500 رسالة، مع معدل 10 طلبات في الدقيقة (10 RPM).
وذلك بالإضافة إلى نافذة سياق للإدخال والإخراج تبلغ 128 ألف رمز في المرة الواحدة.
كما أنه يدعم العربية في الدردشة والتفاعل معه.

قدرات Gemini الجديدة المتقدمة في إنشاء الصور
وفقًا لجوجل، يعتمد Gemini 2.0 Flash على مدخلات متعددة الوسائط تجمع بين النصوص والصور، مع زيادة قدراته في الفهم والاستدلال.
وفيما يلي بعض الميزات البارزة التي يوفرها الإصدار الجديد.
دمج النصوص مع الصور، وبناء قصص مصورة ورسوم بالذكاء الاصطناعي
يتيح للمستخدمين سرد القصص مع إنتاج صور تحافظ على التناسق في الشخصيات والأماكن عبر المشاهد المختلفة.
وتستطيع أيضًا تقديم ملاحظات، ليقوم النموذج بإعادة توليد القصة بأسلوب جديد أو بتعديلات تتناسب مع طلباتك.
في هذا المثال كتبت له "أنشئ قصة من 5 أجزاء عن ماعز صغير أبيض يذهب في مغامرة في مزرعة بأسلوب رسوم متحركة ثلاثية الأبعاد. لكل مشهد، قم بإنشاء صورة."

تحرير وتعديل الصور من خلال الحوار
واحدة من المزايا البارزة هي القدرة على تعديل الصور عبر محادثة مباشرة مع الذكاء الاصطناعي.
حيث يسمح بإجراء تغييرات تدريجية على التصميم حتى الوصول إلى النتيجة المرجوة.
على سبيل المثال، يمكنك طلب تغيير ألوان الصورة، إضافة عناصر جديدة، أو تعديل الإضاءة والمزاج العام دون الحاجة إلى إعادة التوليد من البداية.
المثال الأول: طلبت منه تعديل الألوان بالصورة المرفقة.
المثال الثاني: أرفقت للنموذج صورة لحيوان صغير وكتبت له:
"اريد منك وضع وردة بنية اللون بجانب الحيوان".

فهم العالم الحقيقي في التصميم
على عكس بعض النماذج الأخرى التي تعتمد على قواعد بيانات محدودة، يستفيد هذا البرنامج من المعرفة العامة لإنشاء صور تتسم بالدقة والتفاصيل الواقعية.
ولذلك، يمكننا استخدامه كأداة لتوضيح وصفات الطعام، إنتاج تصاميم تاريخية دقيقة، أو توليد صور تعكس ثقافات ومظاهر حقيقية.
المطالبة
أعطني وصفة لعمل كعكة رقائق الشوكولاتة. يرجى تضمين صورة لكل خطوة.

تحسين جودة النصوص داخل الصور
لطالما واجهت نماذج الذكاء الاصطناعي صعوبة في كتابة النصوص داخل الصور، حيث كانت الأحرف غالبًا تظهر بشكل غير واضح أو بأخطاء إملائية.
ومع ذلك، تظهر اختبارات جوجل أن جيميني 2.0 فلاش يحقق نتائج أفضل في هذا الجانب مقارنة بالمنافسين.
وهذا الأمر يجعله مناسبًا لك لتصميم الملصقات الإعلانية، منشورات وسائل التواصل الاجتماعي، وحتى الدعوات الرقمية.
وللأمانة، أنا من عشاق Recraft V3 عند التطرق إلى توليد التصميمات التي تحتاج إلى دمج نصوص بداخلها.
ولكن يبدو من خلال تجربتي أنني سأستخدم إصدار جوجل و Recraft V3 بالتساوي في هذه الميزة تحديدًا.
استخدمت مطالبة لتصميم صورة تتضمن كتابة جملة باللغة العربية.
وعلى الرغم من أنه لا توجد أداة حتى الآن يمكنها كتابة نصوص بالعربية بشكل صحيح داخل الصور، إلا أن النتيجة كشفت أننا على أعتاب تغيير جذري قريبًا في هذا الأمر.
المطالبة
أنشئ صورة فوتوغرافية واقعية تعرض شاشة كمبيوتر قديم مكتوب عليها "الذكاء الاصطناعي على aiarabai.com" بأسلوب كلاسيكي أنيق.

كيف تحصل على أفضل النتائج؟
بعد تجربة طويلة للنموذج الجديد، ظهرت بعض الاستراتيجيات التي تساعدك في تحقيق أقصى استفادة من قدراته:
الوضوح والتفاصيل في الطلبات
عند تقديم وصف عام مثل "كلب في حديقة"، قد لا تكون النتيجة مرضية.
ولكن عند إضافة تفاصيل مثل "كلب بلون ذهبي كثيف الفراء يجلس على مقعد خشبي في حديقة خلال الخريف، مع أوراق حمراء وبرتقالية متناثرة حوله"، تصبح الصورة أكثر تطابقًا مع التوقعات.
التفاعل التدريجي مع الذكاء الاصطناعي
يمكن تحسين الصورة عبر الحوار المباشر مع النموذج، تمامًا كما يفعل المستخدم مع مصمم جرافيك حقيقي.
على سبيل المثال، اكتب طلب "إضافة إضاءة دافئة"، ثم "تغيير ألوان الجدران"، وأخيرًا "إضافة قطة نائمة على الكرسي"، ليحصل على صورة معدلة بدقة دون الحاجة إلى البدء من الصفر.
استخدام النموذج لإنشاء صور ذات دقة تاريخية وثقافية
على الرغم من أن النماذج السابقة قد تقدم صورًا عامة عند طلب مشهد تاريخي، إلا أن Gemini 2.0 Flash يظهر دقة أعلى عند إدخال تفاصيل محددة.
على سبيل المثال، عند طلب صورة "لمحارب مصري قديم مع نمط دقيق تاريخيًا من العصر الفرعوني يرتدي درعًا معدنيًا وسيفًا مستديرًا"، ستكون النتيجة أقرب إلى الواقع من مجرد طلب "محارب مصري قديم".

إدخال نصوص واضحة داخل الصور
يستطيع النموذج إنتاج صور تحتوي على نصوص واضحة ومتناسقة، مثل إنشاء ملصقات تسويقية أو شعارات دعائية.
جرب أن تطلب منه إنشاء "ملصق بأسلوب كلاسيكي للسفر يحمل عبارة 'Visit Palestine' بخط عريض وألوان زاهية".
منافسة قوية في سوق إنشاء الصور بالذكاء الاصطناعي
من الواضح سعى جوجل الدؤوب إلى جعل Gemini 2.0 Flash منافسًا قويًا في مجال توليد الصور، خصوصًا مع تفوقه في السرعة والدقة على بعض النماذج المعروفة مثل DALL-E 3.
فقد نجح النموذج بامتياز في الجمع بين سرعة الاستجابة، والتحرير التفاعلي، والقدرة على إنتاج صور واقعية ذات جودة عالية.
ومع هذه التحديثات الفريدة، وتكامل كل هذه المزايا، يمكننا القول أن جوجل الآن في الموضع الصحيح الذي يناسبها كرائدة تكنولوجية عملاقة.