GPT-4o أصبح مولد صور: اكتشف قدرات إنشاء وتعديل الصور داخل ChatGPT

أعلنت شركة أوبن إيه آي عن تحديث رئيسي لميزة توليد الصور في ChatGPT، في أول تطوير كبير لهذه الإمكانية منذ أكثر من عام.

جاء الإعلان على لسان الرئيس التنفيذي سام ألتمان خلال بث مباشر، حيث كشف عن أن نموذج GPT-4o أصبح الآن قادرًا على إنشاء الصور وتعديلها بشكل مباشر داخل المنصة.

ويتفوق هذا التحديث بشكل واضح على إصدارات الشركة السابقة.

إذ يقدم إمكانيات أكثر دقة وتحكمًا في تفاصيل الصور، سواء عند إنتاج صور من الصفر أو تعديل الصور الموجودة بالفعل، بما في ذلك التي تحتوي على أشخاص، من خلال إضافة عناصر أو إزالة تفاصيل معينة.

وقد أطلقت الشركة عليه اسم 4o Image Generation.

قدرات جديدة في إنشاء الصور داخل ChatGPT

كانت النسخ السابقة من ChatGPT تعتمد على نموذج DALL-E 3 لإنشاء الصور، لكنه كان يعاني من مشكلات في دقة التفاصيل، خصوصًا عند محاولة توليد صور تحتوي على نصوص أو عناصر معقدة.

وبحسب تصريحات غابرييل غوه، الباحث الرئيسي في OpenAI، يتمتع GPT-4o بقدرات متقدمة في معالجة الصور، حيث يستخدم تقنيات جديدة لتحسين دقة الربط بين العناصر المختلفة داخل الصورة.

على سبيل المثال، عند طلب صورة تحتوي على نجمة زرقاء بجوار مثلث أحمر، فإن النموذج الجديد يضمن عدم الخلط بين الألوان والأشكال، وهي مشكلة شائعة في معظم مولدات الصور الحالية.

كما يمكنه التعامل مع 15 إلى 20 عنصرًا مختلفًا داخل الصورة دون أخطاء، مقارنة بالنماذج السابقة التي كانت تواجه صعوبة عند تجاوز 5 إلى 8 عناصر.

لقطة شاشة من مطالبة داخل ChatGPT لتصميم شبكة من ٤ صفوف وأربع أعمدة، مع اضافة ١٦ عنصر بداخل التصميم
التصميم بالذكاء الاصطناعي داخل ChatGPT - نتيجة توضح قدرة مولد الصور GPT-4o على إنشاء 16 صورة مختلفة داخل تصميم واحد بكفاءة تامة

ورغم أن سرعة إنشاء الصور قد انخفضت قليلًا مقارنة بالإصدارات السابقة، إلا أن التحسينات في الجودة والدقة والمرونة تعوض هذا الفارق، وفقًا لحديث فريق التطوير.

بالإضافة إلى ذلك، يتيح النموذج إمكانية تحرير الصور بطريقة أكثر تطورًا، بما في ذلك إعادة رسم الأجزاء المفقودة أو تعديل الخلفيات والأشياء داخل المشهد.

لقطة شاشة: قطة مع مطالبة لنموذج 4o لجعلها ترتدي قبعة ونظارة
قدرة مولد الصور GPT-4o في تعديل الصور بإضافة نظارة وقبعة إلى قطة
تحويل صورة قطة إلى لعبة فيديو ثلاثية الأبعاد
المزيد من التعديلات على صورة القط لاظهارها كواجهة مستخدم في لعبة فيديو
إنشاء ملف تعريف للقطة داخل اللعبة باستخدام GPT-4o

تحسين جودة النصوص داخل الصور

يأتي تحسين قدرة النموذج على عرض النصوص داخل الصور بشكل دقيق كواحد من الميزات البارزة في هذا التحديث.

ففي الإصدارات السابقة، كانت النصوص تظهر مشوهة أو غير مفهومة، وهو ما كان يجعل من الصعب استخدامها في الشعارات أو التصميمات الإعلانية.

لكن الفريق المطور قضى أشهرًا من التجارب المستمرة للوصول إلى مستوى يجعل النصوص داخل الصور مقروءة وقابلة للاستخدام، خصوصًا للعناوين والملصقات الكبيرة.

قدرة GPT-4o الفائقة على كتابة النصوص داخل الصور: رسم بياني يوضح تجربة علمية بالتفصيل

ورغم أن التحدي لا يزال قائمًا مع النصوص الصغيرة جدًا، إلا أن النتائج الحالية تعد تحسنًا ملحوظًا مقارنة بالإصدارات السابقة.

كيف يعمل GPT-4o Image Generation

بدلًا من استخدام تقنية النمذجة الانتشارية (Diffusion Model) التي تعتمد عليها مولدات الصور التقليدية، يعمل GPT-4o بأسلوب توليدي متسلسل (autoregressive approach).

حيث يتم إنشاء الصورة تدريجيًا من اليسار إلى اليمين ومن الأعلى إلى الأسفل، تمامًا كما يتم كتابة النصوص.

ويعتقد الفريق المطور أن هذا النهج يساعد في تحسين جودة النصوص داخل الصور، بالإضافة إلى زيادة دقة الروابط بين العناصر المختلفة.

وأوضحت الشركة أنها استخدمت بيانات متاحة للجمهور، إلى جانب بيانات مرخصة من شركاء مثل Shutterstock.

من ناحية أخرى، ورغم كفاءة GPT-4o، تطرقت OpenAI إلى بعض التحديات التي تواجهه حاليًا.

على سبيل المثال، ما زالت قدرته على الكتابة متعددة اللغات قيد التطوير.

كما أنه قد يتعرض في بعض الأحيان للهلوسة، مما يؤدي إلى تنفيذ المطالبة بشكل غير دقيق.

هلوسة GPT-4o في تصميم صورة وعدم تنفيذ المطالبة بشكل دقيق، مما يشير إلى بعض التحديات الحالية — مثال على الهلوسة وعدم تنفيذ الأمر المطلوب بشكل سليم

الموازنة بين الميزات المتطورة وحماية الملكية الفكرية

تأتي التحديثات الجديدة بعد وقت قصير من إضافة جوجل قدرات مشابهة في نموذجها Gemini 2.0 Flash.
ولكن أثار نموذج جوجل جدلًا واسعًا بسبب نقص القيود على المحتوى، ما سمح للمستخدمين بإزالة العلامات المائية من الصور وإنشاء صور لشخصيات محمية بحقوق الطبع والنشر.
ولذلك، دائمًا ما يكون القلق مسيطرًا حول استخدام الذكاء الاصطناعي في انتهاك حقوق الملكية الفكرية.
في هذا السياق، أكدت OpenAI على أن ChatGPT لن يسمح بإزالة العلامات المائية من الصور، كما أنه يرفض توليد صور غير لائقة أو محتوى مزيف مسيء.
وأفادت الشركة أنها تتخذ تدابير صارمة لمنع أي استغلال غير قانوني لميزة إنشاء الصور.
وأوضحت أنها لا تستخدم أعمال الفنانين دون إذنهم، كما توفر نموذجًا لإزالة الأعمال من مجموعات بيانات التدريب بناءً على طلب المالكين.
ورغم عدم وجود علامة بصرية واضحة تشير إلى أن الصور مولدة بالذكاء الاصطناعي، إلا أن جميع الصور تحتوي على بيانات C2PA، التي تمكن الشركة من تتبع مصدر الصورة عند الحاجة.

كيفية الوصول إلى مولد الصور 4o

تم تحديث هذه الفقرة بتاريخ 29 مارس.

4o image generation متاح حاليًا لمشتركي الخطة الاحترافية «ChatGPT Pro» التي تبلغ تكلفتها 200 دولار شهريًا، وتشمل كلًا من ChatGPT ومنصة Sora الخاصة بإنشاء مقاطع الفيديو.

وذلك بالإضافة إلى مستخدمي خطط Plus وTeams.

ورغم أن هناك تقارير صدرت منذ يومين عن تأجيل توفير الخدمة للحسابات المجانية، إلا أننا نؤكد من خلال اختباراتنا أنه تم إضافتها إلى اثنين من أصل ثلاثة من حساباتنا المجانية، وذلك في التاريخ الموضح أعلى هذه الفقرة.

لقطة شاشة من حساب ChatGPT مجاني، تم إضافة له خاصية توليد الصور الجديدة باستخدام GPT-4o. — توافر الخدمة في حساب ChatGPT مجاني

ورغم أيضًا عدم توافر أدلة مؤكدة عن حجم الاستخدام اليومي للحسابات المجانية، إلا أنه من المتوقع أن يكون حوالي ثلاث صور يوميًا، وهو مشابه لما كانت عليه حدود استخدام Dall-E 3. وقد يتغير ذلك مستقبلًا بناء على حجم الطلب.

أما من ناحية DALL-E 3، فسيكون متاحًا عبر GPT مخصص للراغبين في الوصول إليه.

تحديث جديد بتاريخ 1 إبريل 2025: OpenAI تعلن رسميًا عن إتاحة ميزة توليد الصور داخل ChatGPT مجانًا لجميع المستخدمين.