تخطى إلى المحتوى

يمكن لبرنامج GPT-4o الآن إنشاء صور تحتوي على نص خالٍ من العيوب تقريبًا

dyda 4a

حصل برنامج OpenAI GPT-4o، الذي أُطلق قبل عام تقريبًا، على ترقية رئيسية: توليد صور بدقة مذهلة لعرض النصوص. تتيح هذه الميزة الأحدث للمستخدمين إنشاء صور مفصلة وعالية الجودة من خلال توجيهات لغوية، وتعديلها بشكل حواري حتى تتطابق مع ما يتخيلونه – وداعًا للعلامات غير المفهومة أو الحروف غير المترابطة التي ابتليت بها نماذج الذكاء الاصطناعي القديمة.

dyda 4a

النص في الصور التي تشاركها OpenAI واضح تمامًا.

على عكس توليد الصور التقليدي، حيث تُحسّن مُوجّهًا واحدًا فقط، يتّبع GPT-4o نهجًا ديناميكيًا. تبدأ بطلب بسيط – مثل قطة – ثم تُحاورها بما يُناسب رؤيتك: قبعة محقق، أو نظارة أحادية العدسة، أو أي شيء آخر تُريده.

minnias cat4

تُظهر أمثلة من OpenAI هذا عمليًا: يُنشئ المستخدمون المشاهد ويُعدّلونها خطوة بخطوة، مثل تجميع عناصر من صور متعددة في نتيجة واحدة متماسكة. يتميّز النموذج بإظهار نصوص واضحة على اللافتات أو الأشياء، وهو ما يُمثّل قفزة نوعية مقارنةً بالمخرجات المشوّهة لنماذج توليد الصور السابقة بالذكاء الاصطناعي.

ومن الجدير بالذكر أن OpenAI يُقرّ أيضًا ببعض الانتقائية – فالعديد من الصور تُصنّف “الأفضل من 2” أو “الأفضل من 8” – لكن النتائج لا تزال مُذهلة، خاصةً مع واجهة بسيطة للغاية. يُمكن لبرنامج GPT-4o حتى البدء بصورتك وإضافة طبقات من التغييرات، مُعالجًا 10-20 عنصرًا في مشهد يتعثّر فيه المُنافسون عند 5-8. في الأسبوع الماضي، كنتُ أحاول إضفاء الحيوية على المشهد الختامي من رواية “كونت مونت كريستو”، وكان من الصعب جدًا إنجازه بشكل صحيح. الآن، مع توليد صور GPT-4o، لن تحتوي الصور المُولّدة على نص مقروء فحسب، بل سيُسهّل عليك أيضًا تحويل خيالك إلى واقع.

مع ذلك، ليس الأمر خاليًا من العيوب. تُلاحظ OpenAI بعض العيوب الغريبة مثل قصّ الجزء السفلي من الصورة، والهلوسة المُستمرة، وصعوبة التعامل مع النصوص غير اللاتينية، ومشاكل في التعامل مع أكثر من 20 عنصرًا. لكن القدرة على إنشاء صور مُعقدة وغنية بالنصوص باستخدام لغة إنجليزية بسيطة تُميّز GPT-4o. إذا كنت تُصمّم مُلصقًا، فإن هذه الأداة تُوفّر دقةً ومرونةً لم تكن تُحلم بها الطُرز القديمة.