טכנולוגיית הבינה המלאכותית "מתחרה" לעיתים ישירות עם בני אדם בתחומים יצירתיים. הבינה המלאכותית יכולה לנצח את השחקנים הגדולים בשחמט, לכתוב סימפוניות, לייצר שירים ועכשיו ליצור אמנות מפורטת מתוך הנחיה קצרה בלבד.

הצוות ב-OpenAI יצר לאחרונה תוכנה שנראית על גבול הלא מציאותית, המסוגלת להפיק מגוון רחב של תמונות תוך שניות, רק ממחרוזת מילים שניתנת לה. תוכנית זו ידועה בשם Dall-E 2 והיא נבנתה כדי לחולל מהפכה בדרך שבה אנו משתמשים בבינה מלאכותית עם תמונות. אדית'ה רמאש, אחד המהנדסים המובילים ב-Dall-E 2 סיפרה למגזין sciencefocus מה היא עושה, מגבלותיה והעתיד שמחכה לה.

עוד בשנת 2021, חברת המחקר לבינה מלאכותית OpenAI יצרה תוכנית בשם "Dall-E" - שילוב של השמות Salvador Dali ו-Wall-E. תוכנה זו הצליחה לקבל הוראה מנוסחת וליצור תמונה ייחודית לחלוטין שנוצרת בינה מלאכותית.
לדוגמה, "שועל בעץ" ייצור תמונה של שועל יושב על עץ, או החיפוש "אסטרונאוט עם בייגל ביד" יראה ובכן אסטרונאוט שמחזיק בייגל ביד.
למרות שזה בהחלט היה מרשים, התמונות היו לעתים קרובות מטושטשות, לא מדויקות לחלוטין ולקח זמן מה לייצר אותן. כעת, OpenAI ביצעה שיפורים עצומים בתוכנה, ויצרה את Dall-E 2 - גרסה חדשה ועוצמתית שמתפקדת ברמה הרבה יותר גבוהה.

יחד עם עוד כמה תכונות חדשות, ההבדל העיקרי עם הדגם השני הזה הוא שיפור עצום ברזולוציית התמונה, זמן הייצור נמוך יותר ואלגוריתם אינטליגנטי יותר ליצירת התמונות. התוכנה לא רק יוצרת תמונה בסגנון בודד, אפשר להוסיף טכניקות אמנות שונות לבקשתך - הזנת סגנונות ציור, ציור שמן, דגם פלסטלינה, סרוג מצמר, מצויר על קיר מערה, או אפילו בתור פוסטר סרט משנות ה-60.

"Dall-E הוא עוזר מאוד שימושי שמעצים את מה שאדם יכול לעשות בדרך כלל, אבל זה באמת תלוי ביצירתיות של האדם שמשתמש בו. אמן או מישהו יותר יצירתי יכול ליצור דברים ממש מעניינים", אומר ראמש.

בנוסף ליכולת של הטכנולוגיה לייצר תמונות רק על פי הנחיות מנוסחות, ל-Dall-E 2 יש שתי טכניקות חכמות נוספות - השלמת ציור ווריאציות. שני היישומים הללו פועלים בצורה דומה לשאר תוכנת ה-Dall-E, רק עם טוויסט.
בעזרת השלמת ציור, אתם יכולים לקחת תמונה קיימת ולערוך לתוכה תכונות חדשות או לשנות חלקים ממנה. אם יש לכם תמונה של סלון, אתם יכולים להוסיף שטיח חדש, כלב על הספה, לשנות את הציור על הקיר או אפילו לזרוק פיל לחדר.
וריאציות הוא שירות נוסף שדורש תמונה קיימת. הזינו תמונה, איור או סוג אחר של תמונה וכלי הווריאציה של Dall-E ייצור מאות גרסאות משלו. אפשר לתת לו תמונה של טלטאביז, והוא ישכפל אותה, וייצור גרסאות דומות. ציור ישן של סמוראי ייצור ציורים דומים, אפשר אפילו לצלם איזה גרפיטי ברחוב ולקבל תוצאות דומות בחזרה.
תאורטית אפשר גם להשתמש בכלי הזה כדי לשלב שתי תמונות לשיתוף פעולה מטורף אחד. מערבבים דרקון וקורג'י, או קשת בענן וסיר כדי ליצור סירים עם קצת צבע.

אמנם אין ספקות עד כמה הטכנולוגיה הזו מרשימה, אבל גם לה יש מגבלות. בעיה אחת היא הבלבול בין מילים או ביטויים מסוימים. לדוגמה, כאשר מזינים "חור שחור בתוך קופסה", Dall-E 2 החזיר חור שהיה שחור בתוך קופסה, במקום הגוף הקוסמי.
זה יכול לקרות לעתים קרובות, כאשר למילה יש משמעויות מרובות, וכן ביטויים יכולים להיות מובנים לא נכון או אם משתמשים בדיבור. יש לצפות לכך מבינה מלאכותית שמתייחסת למשמעות המילולית של המילים שלכם.

"משהו נוסף שצריך להתרגל אליו עם המערכת הוא איך ההנחיות והסגנונות האמנותיים עובדים. כשאתה מקליד משהו, ייתכן שהתמונה הראשונית לא נכונה, ולמרות שהיא מתאימה מבחינה טכנית לבקשתך, היא לא משיגה את התחושה או הרעיון שהיה לך בראש. זה יכול לקחת קצת זמן להתרגל וכמה התאמות קלות", אומר ראמש.

תחום נוסף שבו Dall-E יכול להתבלבל הוא עם "מיזוג משתנה". "אם אתה מבקש ממנו לצייר קובייה אדומה על גבי קובייה כחולה לפעמים הוא מתבלבל ועושה את ההיפך. אנחנו יכולים לתקן את זה די בקלות באיטרציות עתידיות של המערכת, אני חושב", כך לפי ראמש.

כמו כל הדברים הטובים באינטרנט, לא עבר זמן רב עד שנושא מרכזי אחד עלה לסדר היום - כיצד ניתן להשתמש בטכנולוגיה הזו בצורה לא אתית? ושלא לדבר על הנושא הנוסף של ההיסטוריה של הבינה המלאכותית של למידה של התנהגות לא נאותה מאנשי האינטרנט.

כשמדובר בטכנולוגיה סביב יצירת בינה מלאכותית של תמונות, נראה ברור שאפשר לתמרן את זה בדרכים רבות: תעמולה, חדשות מזויפות (פייק ניוז) ותמונות מעובדות.

כדי לעקוף זאת, צוות OpenAI מאחורי Dall-E יישם מדיניות בטיחות עבור כל התמונות בפלטפורמה שפועלת בשלושה שלבים. השלב הראשון כולל סינון נתונים הכוללים הפרה גדולה. זה כולל אלימות, תכנים מיניים ותמונות שהצוות יראה כבלתי הולם. השלב השני הוא מסנן שמחפש נקודות עדינות יותר שקשה לזהות. זה יכול להיות תוכן פוליטי, או תעמולה כלשהי. לבסוף, במתכונתה הנוכחית, כל תמונה המיוצרת על ידי Dall-E נבדקת על ידי אדם, אבל זה לא שלב בר קיימא בטווח הארוך ככל שהמוצר גדל.

למרות השימוש במדיניות זו, הצוות מודע בבירור לתוצאות הבאות של מוצר זה. הם פירטו את הסיכונים והמגבלות של Dall-E, תוך פירוט מספר הבעיות שהם עלולים להתמודד איתם. לדוגמה, תמונות יכולות להראות לעתים קרובות הטיה או סטריאוטיפים כמו השימוש במונח חתונה, שמחזיר בעיקר חתונות מערביות. או המושג "עורך דין" מראה רוב של גברים מבוגרים לבנים, המושג "אחיות" מראה בעיקר נשים.אלו לא בעיות חדשות בכלל וזה משהו שגוגל מתמודדת איתו כבר שנים. לעתים קרובות יצירת תדמית יכולה לעקוב אחר הדעות הקדומות הנראות בחברה.

יש גם דרכים להערים על Dall-E לייצר תוכן שהמונח מחפש לסנן. בעוד שדם יפעיל את מסנן האלימות, משתמש יכול להקליד "בריכה של קטשופ" או משהו דומה בניסיון לעקוף אותו. יחד עם מדיניות הבטיחות של הצוות, יש להם מדיניות תוכן ברורה שמשתמשים צריכים לציית לה.

אז הטכנולוגיה נמצאת שם בחוץ, וברור שהביצועים טובים, אבל מה הלאה עבור צוות Dall-E 2? כרגע התוכנה מתגלגלת לאט דרך רשימת המתנה ללא תוכניות ברורות לפתוח אותה לקהל הרחב עדיין, מה שאומר שאם תרצו לייצר תמונה משלכם - אתם לא יכולים בקרוב.
על ידי שחרור איטי של המוצר שלהם, קבוצת OpenAI יכולה לעקוב אחר צמיחתו, לפתח את נהלי הבטיחות שלהם ולהכין את המוצר שלהם למיליוני האנשים הסבירים שבקרוב ישלחו את הפקודות שלהם.
"אנחנו רוצים להעביר את המחקר הזה לידיים של אנשים, אבל לעת עתה, אנחנו פשוט מעניינים לקבל משוב על האופן שבו אנשים משתמשים בפלטפורמה. אנחנו בהחלט מעוניינים לפרוס את הטכנולוגיה הזו בצורה רחבה יותר, אבל כרגע אין לנו תוכניות למסחור", אומר ראמש.

ישנה עוד שאלה שעולה מהטכנולוגיה והיא כמובן מה העתיד של הציירים? האם בקרוב כולנו יכולים להפוך לאומנים וכל מה שנצטרך הוא דמיון כדי לתת פקודה שתראה טוב על הנייר? וכמובן האם הטכנולוגיה הזאת יכולה להתפתח לשאר מקצועות האומנות ובעתיד במאים לא יצטרכו לכתוב "לבזבז" שבועות שלמים על צילומים של סרט אלא מספיק שיכתבו פקודה והמחשב ידע להוציא מזה אוסקר, ואם כן מי יקבל את האוסקר - המחשב או האדם? העתיד כבר כאן והוא מצויר ממש טוב.