מחוללי תמונות מטקסט בעזרת בינה מלאכותית עלו לכותרות בחודשים האחרונים, אך הדבר הבא כבר הגיע: מחוללי טקסט לווידאו בעזרת ינה מלאכותית.

צוות של מהנדסי למידת מכונה מחברת האם של פייסבוק "מטא" חשף מערכת חדשה בשם Make-A-Video. כפי שהשם מרמז, מודל AI זה מאפשר למשתמשים להקליד תיאור גס של סצנה, והוא יפיק סרטון קצר המתאים לטקסט שלהם. הסרטונים נראים מאוד מלאכותיים, עם דמויות מטושטשות ואנימציה די מעוותת, אך עדיין מייצגים התפתחות משמעותית בתחום יצירת תוכן AI.

"מחקר AI אקטיבי דוחף קדימה צורות ביטוי יצירתיות על ידי מתן כלים לבני אדם ליצור תוכן חדש במהירות ובקלות", כתבה חברת מטא בפוסט בבלוג שבו הכריזה על ההשקה. "באמצעות כמה מילים או שורות טקסט בלבד, Make-A-Video יכול להחיות את הדמיון וליצור סרטונים מיוחדים במינם מלאים בצבעים ובנופים."

בפוסט בפייסבוק, מנכ"ל מטא, מארק צוקרברג, תיאר את העבודה כ"התקדמות מדהימה", והוסיף: "הרבה יותר קשה ליצור וידאו מאשר תמונות כי מעבר לייצור נכון של כל פיקסל, המערכת צריכה גם לחזות כיצד הם ישתנו עם הזמן.”

אורך הקליפים לא עולה על חמש שניות והם לא מכילים אודיו אך משתרעים על מגוון עצום של תנועות. הדרך הטובה ביותר לשפוט את ביצועי המחשב היא לצפות בתפוקה שלו. כל אחד מהסרטונים שלמטה נוצר על ידי Make-A-Video וכותרתו עם ההנחיה ששימשה ליצירת הסרטון. עם זאת, ראוי גם לציין שכל הסרטונים סופקו ע"י מטא, אשר לא מאפשרת כרגע לאף אחד גישה לפרויקט. זה אומר שמטא יכלה לבחור את הקליפים הטובים ביותר כדי להראות את המערכת באור חיובי.

למרות שברור שהסרטונים האלה נוצרים במחשב, התוצאות של דגמי AI כאלה ישתפרו במהירות בעתיד הקרוב. לשם השוואה, תוך מספר שנים בלבד, מחוללי תמונות AI הפכו מיצירת תמונות גבוליות ובלתי מובנות לתוכן פוטוריאליסטי. ולמרות שההתקדמות בווידאו יכולה להיות איטית יותר בהתחשב במורכבות הכמעט בלתי מוגבלת של הנושא, הפרס של יצירת וידאו חלקה יניע מוסדות וחברות רבים להזרים משאבים גדולים לפרויקט.

בפוסט של מטא שהמכריז על Make-a-Video, החברה ציינה שהכלי ליצירת סרטונים יכולים להיות חשוב לאין ערוך "עבור יוצרים ואמנים". אבל, כמו במודלים של טקסט לתמונה, יש גם דאגות. התוצאה של הכלים האלה יכול לשמש לפייק ניוז, תעמולה, וסביר יותר, בהתבסס על מה שראינו עם מערכות תמונה בינה מלאכותית ודיפ פייק - ליצור פורנוגרפיה ללא הסכמה שיכולה לשמש כדי להטריד ולהפחיד נשים.

מטא אומרת שהיא רוצה להיות "מחושבת לגבי האופן שבו אנו בונים מערכות בינה מלאכותית חדשות כמו זו" ומפרסמת רק כעת מאמר על מודל Make-A-Video. החברה אומרת שהיא מתכננת לשחרר הדגמה של המערכת, אך אינה אומרת מתי או כיצד הגישה לדגם עשויה להיות מוגבלת.

ראוי גם לציין כי מטא אינה החברה היחידה שעובדת על מחוללי וידאו בינה מלאכותית. מוקדם יותר השנה, למשל, קבוצת חוקרים מאוניברסיטת Tsinghua ומהאקדמיה לבינה מלאכותית בבייג'ינג (BAAI) פרסמה מודל טקסט-לווידאו משלהם, בשם CogVideo (המודל היחיד הזמין לציבור של טקסט לווידאו).

החוקרים מציינים במאמר שלדגם יש מגבלות טכניות רבות מעבר לצילומים מטושטשים ואנימציה מפורקת. לדוגמה, שיטות האימון שלהם אינן מסוגלות ללמוד מידע שעלול להסיק רק בן אדם שצופה בסרטון - למשל, האם סרטון של יד מנופפת הולך משמאל לימין או מימין לשמאל. בעיות אחרות כוללות יצירת סרטונים ארוכים מחמש שניות, סרטונים עם מספר סצנות, אירועים ורזולוציה גבוהה יותר. Make-A-Video מוציא כעת 16 פריימים של וידאו ברזולוציה של 64 על 64 פיקסלים, אשר לאחר מכן מוגדלים בגודלם באמצעות דגם AI נפרד ל-768 על 768.

הצוות של מטא מציין גם שכמו כל דגמי הבינה המלאכותית שאומנו על נתונים ש"גורדו" מהאינטרנט, "למדו וכנראה אפילו הגזימו הטיות חברתיות, כולל כמה מזיקות". במודלים של טקסט לתמונה, הטיות אלו מחזקות לעתים קרובות דעות קדומות חברתיות. לדוגמה, בקשו ליצור תמונה של "מחבל", וסביר להניח שהיא תתאר מישהו חובש טורבן. עם זאת, אי אפשר לומר אילו הטיות למד המודל של מטא ללא גישה פתוחה.

 

מטא אומרת כי היא "חולקת בגלוי את המחקר והתוצאות הגנרטיביות של AI זה עם הקהילה עבור המשוב שלהם, ותמשיך להשתמש במסגרת ה-AI האחראית שלנו כדי לחדד ולפתח את הגישה שלנו לטכנולוגיה המתפתחת הזו."