mako
פרסומת

התשובה לננו בננה פרו: OpenAI השיקה מודל תמונות חדש ומשופר

אחרי שהכריזה על "מצב חירום", OpenAI משיבה מלחמה לגוגל ומשיקה מודל תמונות חדש - GPT Image 1.5, שמבטיח להיות מהיר פי 4, מדויק יותר, לאפשר מספר עריכות של אותן דמויות ועוד. בנוסף, הוא מסוגל לכתוב בעברית על גבי תמונות וליצור אינפוגרפיקות, אם כי זה עדיין טעון שיפור לעיתים. כך זה נראה

דנה גוטרזון
פורסם:
סם אלטמן במודל התמונות החדש של ChatGPT
סם אלטמן במודל התמונות החדש של ChatGPT | צילום: twitter
הקישור הועתק

ב-OpenAI הכריזו על "מצב חירום" ("קוד אדום") לאחר השחרור המוצלח של ג'מיני 3 וננו בננה פרו על ידי המתחרה הגדולה גוגל. כעת, התשובות של החברה מתחילות להגיע: ביום חמישי הושק המודל המשופר, GPT-5.2, ואמש שוחרר מודל התמונות החדש שנועד להוות תשובה ל"ננו בננה".

הגרסה החדשה של ChatGPT Images מבטיחה "היענות טובה יותר להנחיות, עריכה מדויקת יותר ומהירות יצירת תמונות שיכולה להגיע עד פי ארבעה". המודל החדש, שנקרא GPT Image 1.5, זמין החל מאתמול לכל משתמשי ChatGPT ודרך ה-API. שחרור מודל התמונות האחרון שלה היה GPT Image 1 בחודש אפריל, ואז הגיע לעולם טרנד תמונות הג'יבלי (בסגנון אנימה יפנית).

שימו לב: למשתמשים במסלול החינמי השימוש מוגבל כרגע ל-5 תמונות ביממה בלבד. ליצירת תמונה, יש לבחור בכפתור הפלוס (+) משמאל ואז במצב "Create image" או להיכנס לקישור הייעודי. הפעם תוכלו גם לבקש תמונה נוספת בזמן שהצ'אט חושב.

GPT Image 1.5 מגיע בתקופה שבה מחוללי תמונות ווידאו מתקדמים מאמצים יכולות המתאימות יותר לשימוש מסחרי. בדומה לננו בננה פרו, ה-ChatGPT Image מציע יכולות פוסט-פרודקשן (עיבוד לאחר יצירה) עם שליטה מדויקת לשמירה על עקביות חזותית – כולל דמיון בתווי פנים, תאורה, קומפוזיציה וגווני הצבעים בין העריכות.

בבלוג של החברה, OpenAI מדגימה כיצד ניתן להזין לצ'אט שלוש תמונות שונות (שני גברים וכלב) ולשלב אותם במסיבת יום הולדת בסגנון שנות ה-2000, כשהם נראים משועממים. בהמשך, המודל מאפשר להוסיף ילדים ברקע, להפוך את הכלב לצעצוע, לשנות את אחד הגברים לדמות מצוירת, להלביש אותם בסווטשירט של OpenAI ולבסוף – להשאיר את הכלב לבדו.

פרסומת

רוב כלי התמונות מבוססי ה-GenAI (בינה מלאכותית יוצרת) מתקשים בביצוע שיפורים חוזרים לתמונות. כשמבקשים שינוי ספציפי, כמו "התאם את הבעת הפנים" או "הפוך את התאורה לקרה יותר", המודלים נוטים לפרש מחדש את כל התמונה, מה שמוביל לחוסר עקביות, כך שעל פניו OpenAI מבטיחה בשורה טכנולוגית.

מלבד לבקש תמונה דרך הצ'אט, כעת ניתן לגשת למחולל התמונות דרך כפתור ייעודי בסרגל הצד של הצ'אט, שם תוכלו לראות את היסטוריית התמונות שהכנתם ולהכין לקבל השראה מסגנונות אומנותיים שונים. פידג'י סימו (Fidji Simo), מנכ"לית האפליקציות של OpenAI, הסבירה בבלוג ביום שלישי: "מסכי הצפייה והעריכה החדשים מקלים על יצירת תמונות התואמות את החזון שלכם, או על קבלת השראה מפרומפטים טרנדיים ופילטרים מוגדרים מראש".

פרסומת

בנוסף למחולל התמונות, OpenAI מתכננת לשלב יותר אלמנטים ויזואליים בתשובות הטקסטואליות שלה, דבר שיכול להועיל בבקשות כמו המרת מידות או בדיקת תוצאות ספורט. "כשאתם יוצרים, אתם צריכים להיות מסוגלים לראות ולעצב את הדבר שאתם יוצרים. כשויז'ואלים מספרים סיפור טוב יותר ממילים בלבד, ChatGPT צריך לכלול אותם", כתבה סימו. "ככל שנעשה זאת, נוכל להמשיך לצמצם את המרחק בין מה שעובר לכם בראש לבין היכולת שלכם להפיח בו חיים".

גם סם אלטמן, מנכ"ל ומייסד OpenAI, שיתף תמונות שיצר באמצעות המחולל החדש – למשל תמונה שלו ללא חולצה, כמחווה ללוחות שנה שהיו נפוצים במוסכים.

מהר מאוד בטוויטר התחילו ההשוואות בין שני המודלים, עם פרומפט זהה.

פרסומת

מה לגבי העברית?

הבשורה הגדולה של ננו בננה פרו הייתה היכולת ליצור תמונות ואינפוגרפיקות מרשימות עם כיתוב בעברית (אם כי גם הוא לא חף מטעויות). עד כה, אם ביקשתם מ-ChatGPT כיתוב בעברית, קיבלתם ג'יבריש. הבשורות הטובות הן שיש שיפור משמעותי, אך המצב עדיין רחוק משלמות.

בבדיקה שערכנו (במנוי חינמי) ביקשנו ליצור כרטיס ברכה עם המילים "חג חנוכה שמח". בפעמיים הראשונות המילה "חג" נכתבה פעמיים, פעם אחת קיבלנו ג'יבריש, ורק בניסיון נוסף זה הסתדר. במנוי הפרו הבעיות קלות יותר, אך עדיין ניכרות: כשביקשנו תמונה של ילד בוכה ברחוב דיזינגוף, הכיתוב על השלט ברקע היה שגוי, ובכרטיס הברכה לחנוכה מספר הנרות היה גבוה מהנדרש. גם משתמשים אחרים ברשת דיווחו כי עדיין יש בעיות עם העברית.