إنشاء وتعديل الصور مع مزايا Gemini Flash 2.0 الجديدة مجانًا: تجربة تتفوق على المنافسين

Gemini 2.0 Flash: قدرات ومزايا قوية من جوجل في إنشاء وتعديل الصور بالذكاء الاصطناعي

أعلنت جوجل في 12 مارس عن تقديم مزايا قوية لإنشاء وتعديل الصور بالذكاء الاصطناعي باستخدام برنامجها Gemini 2.0 Flash.

هذه الميزة، التي كانت متاحة في البداية لمجموعة محدودة من المختبرين، أصبحت متاحة الآن للمطورين عبر Google AI Studio وواجهة Gemini API.

تم طرح هذا النموذج في ديسمبر الماضي ضمن الجيل الأحدث من إصداراتها، التى تأتي تحت اسم Gemini 2.0.

وبالإضافة إلى سرعته، يتميز أيضًا Flash 2.0 بقدرته على استقبال الإدخالات متعددة الوسائط مثل الفيديوهات والملفات، والتفكير المعزز وفهم اللغة الطبيعية لتوليد الصور.

تعرف على قدرات Gemini 2.0 Flash وتجربتي معه.

كما يمكنك استخدامه من خلال موقع gemini.google.com وكذلك عبر تطبيق جيميني الرسمي.

ولكن الجديد هنا هو إمكانية تجربة قدرات النموذج المحسنة في إنشاء الصور، وذلك من خلال إصدار تجريبي جديد باسم gemini-2.0-flash-exp.

ويمنح هذا الإصدار المستخدمين القدرة على إنتاج صور مدمجة بالنصوص، مع تحسينات واضحة في جودة الإخراج البصري وقدرات التحرير عبر الدردشة.

وأستطيع القول بثقة أنه من بين أفضل الأدوات التي يمكنك استخدامها في مجال التصميم بالذكاء الاصطناعي.

طريقة الوصول إلى إصدار جوجل الجديد

للبدء في استخدامه، توجه إلى الرابط التالي وهو الخاص بالنموذج على منصة AI Studio.

يمكنك اختباره بشكل مجاني تمامًا مع حدود يومية تصل إلى 1500 رسالة، مع معدل 10 طلبات في الدقيقة (10 RPM).

وذلك بالإضافة إلى نافذة سياق للإدخال والإخراج تبلغ 128 ألف رمز في المرة الواحدة.

كما أنه يدعم العربية في الدردشة والتفاعل معه.

تحديث بتاريخ 15 مارس: تم تغيير اسم الإصدار داخل واجهة AI Studio إلى Gemini 2.0 Flash (Image Generation) Experimental.

مزايا برنامج Gemini 2.0 Flash (image generation) Experimental وحدود الاستخدام في Google AI Studio

قدرات جيميني الجديدة المتقدمة في إنشاء الصور

وفقًا لجوجل، يعتمد Gemini 2.0 Flash على مدخلات متعددة الوسائط تجمع بين النصوص والصور، مع زيادة قدراته في الفهم والاستدلال.

وفيما يلي بعض الميزات البارزة التي يوفرها الإصدار الجديد.

دمج النصوص مع الصور، وبناء قصص مصورة ورسوم بالذكاء الاصطناعي

يتيح للمستخدمين سرد القصص مع إنتاج صور تحافظ على التناسق في الشخصيات والأماكن عبر المشاهد المختلفة.

وتستطيع أيضًا تقديم ملاحظات، ليقوم النموذج بإعادة توليد القصة بأسلوب جديد أو بتعديلات تتناسب مع طلباتك.

في هذا المثال كتبت له "أنشئ قصة من 5 أجزاء عن ماعز صغير أبيض يذهب في مغامرة في مزرعة بأسلوب رسوم متحركة ثلاثية الأبعاد. لكل مشهد، قم بإنشاء صورة."

إنشاء القصص والرسوم التوضيحية باستخدام إصدار Google

إنشاء القصص والرسوم التوضيحية بالذكاء الاصطناعي

تحرير وتعديل الصور من خلال الحوار

واحدة من المزايا البارزة هي القدرة على تعديل الصور عبر محادثة مباشرة مع الذكاء الاصطناعي.

حيث يسمح بإجراء تغييرات تدريجية على التصميم حتى الوصول إلى النتيجة المرجوة.

على سبيل المثال، يمكنك طلب تغيير ألوان الصورة، إضافة عناصر جديدة، أو تعديل الإضاءة والمزاج العام دون الحاجة إلى إعادة التوليد من البداية.

المثال الأول: طلبت منه تعديل الألوان بالصورة المرفقة.

المثال الثاني: أرفقت للنموذج صورة لحيوان صغير وكتبت له:

"اريد منك وضع وردة بنية اللون بجانب الحيوان".

تحرير الصور بالذكاء الاصطناعي باستخدام gemini-2.0-flash-exp. على الجانب الأيمن تعديل صورة بتغيير ألوانها، وعلى الجانب الأيسر إضافة عنصر جديد (وردة) إلى الصورة

تحرير وتعديل الصور بالذكاء الاصطناعي مجانًا

فهم العالم الحقيقي في التصميم

على عكس بعض النماذج الأخرى التي تعتمد على قواعد بيانات محدودة، يستفيد هذا البرنامج من المعرفة العامة لإنشاء صور تتسم بالدقة والتفاصيل الواقعية.

ولذلك، يمكننا استخدامه كأداة لتوضيح وصفات الطعام، إنتاج تصاميم تاريخية دقيقة، أو توليد صور تعكس ثقافات ومظاهر حقيقية.

المطالبة

أعطني وصفة لعمل كعكة رقائق الشوكولاتة. يرجى تضمين صورة لكل خطوة.

إخراج نص متداخل وصور توضيحية لوصفة في Google AI Studio

إخراج نص متداخل وصور توضيحية في كل خطوة من عملية تحضير وصفة الكعكة داخل Google AI Studio

تحسين جودة النصوص داخل الصور

لطالما واجهت نماذج الذكاء الاصطناعي صعوبة في كتابة النصوص داخل الصور، حيث كانت الأحرف غالبًا تظهر بشكل غير واضح أو بأخطاء إملائية.

ومع ذلك، تظهر اختبارات جوجل أن جيميني 2.0 فلاش يحقق نتائج أفضل في هذا الجانب مقارنة بالمنافسين.

وهذا الأمر يجعله مناسبًا لك لتصميم الملصقات الإعلانية، منشورات وسائل التواصل الاجتماعي، وحتى الدعوات الرقمية.

وللأمانة، أنا من عشاق Recraft V3 عند التطرق إلى توليد التصميمات التي تحتاج إلى دمج نصوص بداخلها.

ولكن يبدو من خلال تجربتي أنني سأستخدم إصدار جوجل و Recraft V3 بالتساوي في هذه الميزة تحديدًا.

استخدمت مطالبة لتصميم صورة تتضمن كتابة جملة باللغة العربية.

وعلى الرغم من أنه لا توجد أداة حتى الآن يمكنها كتابة نصوص بالعربية بشكل صحيح داخل الصور، إلا أن النتيجة كشفت أننا على أعتاب تغيير جذري قريبًا في هذا الأمر.

المطالبة

أنشئ صورة فوتوغرافية واقعية تعرض شاشة كمبيوتر قديم مكتوب عليها "الذكاء الاصطناعي على aiarabai.com" بأسلوب كلاسيكي أنيق.

تصميم صورة لجهاز كمبيوتر مع كتابة نص باللغة العربية على شاشته

كيف تحصل على أفضل النتائج؟

بعد تجربة طويلة للنموذج الجديد، ظهرت بعض الاستراتيجيات التي تساعدك في تحقيق أقصى استفادة من قدراته:

الوضوح والتفاصيل في الطلبات

عند تقديم وصف عام مثل "كلب في حديقة"، قد لا تكون النتيجة مرضية.

ولكن عند إضافة تفاصيل مثل "كلب بلون ذهبي كثيف الفراء يجلس على مقعد خشبي في حديقة خلال الخريف، مع أوراق حمراء وبرتقالية متناثرة حوله"، تصبح الصورة أكثر تطابقًا مع التوقعات.

التفاعل التدريجي مع الذكاء الاصطناعي

يمكن تحسين الصورة عبر الحوار المباشر مع النموذج، تمامًا كما يفعل المستخدم مع مصمم جرافيك حقيقي.

على سبيل المثال، اكتب طلب "إضافة إضاءة دافئة"، ثم "تغيير ألوان الجدران"، وأخيرًا "إضافة قطة نائمة على الكرسي"، ليحصل على صورة معدلة بدقة دون الحاجة إلى البدء من الصفر.

استخدام النموذج لإنشاء صور ذات دقة تاريخية وثقافية

على الرغم من أن النماذج السابقة قد تقدم صورًا عامة عند طلب مشهد تاريخي، إلا أن Gemini 2.0 Flash يظهر دقة أعلى عند إدخال تفاصيل محددة.

على سبيل المثال، عند طلب صورة "لمحارب مصري قديم مع نمط دقيق تاريخيًا من العصر الفرعوني يرتدي درعًا معدنيًا وسيفًا مستديرًا"، ستكون النتيجة أقرب إلى الواقع من مجرد طلب "محارب مصري قديم".

تصميم صورة كرتونية لمصري قديم ذات دقة تاريخية وثقافية باستخدام جيميني 2.0 فلاش التجريبي

إدخال نصوص واضحة داخل الصور

يستطيع النموذج إنتاج صور تحتوي على نصوص واضحة ومتناسقة، مثل إنشاء ملصقات تسويقية أو شعارات دعائية.

جرب أن تطلب منه إنشاء "صورة ملصق بأسلوب كلاسيكي للسفر يحمل عبارة 'Visit Palestine' بخط عريض وألوان زاهية".

منافسة قوية في سوق إنشاء الصور بالذكاء الاصطناعي

من الواضح سعى جوجل الدؤوب إلى جعل Gemini 2.0 Flash منافسًا قويًا في مجال توليد الصور، خصوصًا مع تفوقه في السرعة والدقة على بعض النماذج المعروفة مثل DALL-E 3.

فقد نجح النموذج بامتياز في الجمع بين سرعة الاستجابة، والتحرير التفاعلي، والقدرة على إنتاج صور واقعية ذات جودة عالية.

ومع هذه التحديثات الفريدة، وتكامل كل هذه المزايا، يمكننا القول أن جوجل الآن في الموضع الصحيح الذي يناسبها كرائدة تكنولوجية عملاقة.

أو تحقق من الفئات الشعبية لدينا...

من نحن

تواصل معنا