הצעד הבא: מטא הכריזה על מחולל סרטונים מטקסט

מחוללי תמונות מטקסט בעזרת בינה מלאכותית עלו לכותרות בחודשים האחרונים, אך הדבר הבא כבר הגיע: מחוללי טקסט לווידאו בעזרת ינה מלאכותית.

צוות של מהנדסי למידת מכונה מחברת האם של פייסבוק "מטא" חשף מערכת חדשה בשם Make-A-Video. כפי שהשם מרמז, מודל AI זה מאפשר למשתמשים להקליד תיאור גס של סצנה, והוא יפיק סרטון קצר המתאים לטקסט שלהם. הסרטונים נראים מאוד מלאכותיים, עם דמויות מטושטשות ואנימציה די מעוותת, אך עדיין מייצגים התפתחות משמעותית בתחום יצירת תוכן AI.

"מחקר AI אקטיבי דוחף קדימה צורות ביטוי יצירתיות על ידי מתן כלים לבני אדם ליצור תוכן חדש במהירות ובקלות", כתבה חברת מטא בפוסט בבלוג שבו הכריזה על ההשקה. "באמצעות כמה מילים או שורות טקסט בלבד, Make-A-Video יכול להחיות את הדמיון וליצור סרטונים מיוחדים במינם מלאים בצבעים ובנופים."

AI researchers at Facebook's parent company Meta have unveiled Make-A-Video — an early stages text-to-video AI model that generates five second video clips like those below based on text prompts. details here: https://t.co/ZCZULw9P8a pic.twitter.com/Ruf7Qh62iU
— James Vincent (@jjvincent) September 29, 2022

בפוסט בפייסבוק, מנכ"ל מטא, מארק צוקרברג, תיאר את העבודה כ"התקדמות מדהימה", והוסיף: "הרבה יותר קשה ליצור וידאו מאשר תמונות כי מעבר לייצור נכון של כל פיקסל, המערכת צריכה גם לחזות כיצד הם ישתנו עם הזמן.”

אורך הקליפים לא עולה על חמש שניות והם לא מכילים אודיו אך משתרעים על מגוון עצום של תנועות. הדרך הטובה ביותר לשפוט את ביצועי המחשב היא לצפות בתפוקה שלו. כל אחד מהסרטונים שלמטה נוצר על ידי Make-A-Video וכותרתו עם ההנחיה ששימשה ליצירת הסרטון. עם זאת, ראוי גם לציין שכל הסרטונים סופקו ע"י מטא, אשר לא מאפשרת כרגע לאף אחד גישה לפרויקט. זה אומר שמטא יכלה לבחור את הקליפים הטובים ביותר כדי להראות את המערכת באור חיובי.

Here's another sample video, generated from the prompt "horse drinking water." It's obvious that it's artificial, yes, but think how quickly text-to-image programs have advanced in just the past few years. The quality of this output will likely improve a lot in the near future. pic.twitter.com/xv0Kp3jsWo
— James Vincent (@jjvincent) September 29, 2022

למרות שברור שהסרטונים האלה נוצרים במחשב, התוצאות של דגמי AI כאלה ישתפרו במהירות בעתיד הקרוב. לשם השוואה, תוך מספר שנים בלבד, מחוללי תמונות AI הפכו מיצירת תמונות גבוליות ובלתי מובנות לתוכן פוטוריאליסטי. ולמרות שההתקדמות בווידאו יכולה להיות איטית יותר בהתחשב במורכבות הכמעט בלתי מוגבלת של הנושא, הפרס של יצירת וידאו חלקה יניע מוסדות וחברות רבים להזרים משאבים גדולים לפרויקט.

בפוסט של מטא שהמכריז על Make-a-Video, החברה ציינה שהכלי ליצירת סרטונים יכולים להיות חשוב לאין ערוך "עבור יוצרים ואמנים". אבל, כמו במודלים של טקסט לתמונה, יש גם דאגות. התוצאה של הכלים האלה יכול לשמש לפייק ניוז, תעמולה, וסביר יותר, בהתבסס על מה שראינו עם מערכות תמונה בינה מלאכותית ודיפ פייק - ליצור פורנוגרפיה ללא הסכמה שיכולה לשמש כדי להטריד ולהפחיד נשים.

מטא אומרת שהיא רוצה להיות "מחושבת לגבי האופן שבו אנו בונים מערכות בינה מלאכותית חדשות כמו זו" ומפרסמת רק כעת מאמר על מודל Make-A-Video. החברה אומרת שהיא מתכננת לשחרר הדגמה של המערכת, אך אינה אומרת מתי או כיצד הגישה לדגם עשויה להיות מוגבלת.

ראוי גם לציין כי מטא אינה החברה היחידה שעובדת על מחוללי וידאו בינה מלאכותית. מוקדם יותר השנה, למשל, קבוצת חוקרים מאוניברסיטת Tsinghua ומהאקדמיה לבינה מלאכותית בבייג'ינג (BAAI) פרסמה מודל טקסט-לווידאו משלהם, בשם CogVideo (המודל היחיד הזמין לציבור של טקסט לווידאו).

החוקרים מציינים במאמר שלדגם יש מגבלות טכניות רבות מעבר לצילומים מטושטשים ואנימציה מפורקת. לדוגמה, שיטות האימון שלהם אינן מסוגלות ללמוד מידע שעלול להסיק רק בן אדם שצופה בסרטון - למשל, האם סרטון של יד מנופפת הולך משמאל לימין או מימין לשמאל. בעיות אחרות כוללות יצירת סרטונים ארוכים מחמש שניות, סרטונים עם מספר סצנות, אירועים ורזולוציה גבוהה יותר. Make-A-Video מוציא כעת 16 פריימים של וידאו ברזולוציה של 64 על 64 פיקסלים, אשר לאחר מכן מוגדלים בגודלם באמצעות דגם AI נפרד ל-768 על 768.

To emphasize: we're a long LONG way from "create any video you can describe in minutes" — clips are 5 seconds, output at 64x64, and contain so many artifacts/errors it's impossible to describe them all... But still. Here's "a spaceship landing on Mars" pic.twitter.com/4FaOkf38PG
— James Vincent (@jjvincent) September 29, 2022

הצוות של מטא מציין גם שכמו כל דגמי הבינה המלאכותית שאומנו על נתונים ש"גורדו" מהאינטרנט, "למדו וכנראה אפילו הגזימו הטיות חברתיות, כולל כמה מזיקות". במודלים של טקסט לתמונה, הטיות אלו מחזקות לעתים קרובות דעות קדומות חברתיות. לדוגמה, בקשו ליצור תמונה של "מחבל", וסביר להניח שהיא תתאר מישהו חובש טורבן. עם זאת, אי אפשר לומר אילו הטיות למד המודל של מטא ללא גישה פתוחה.

מטא אומרת כי היא "חולקת בגלוי את המחקר והתוצאות הגנרטיביות של AI זה עם הקהילה עבור המשוב שלהם, ותמשיך להשתמש במסגרת ה-AI האחראית שלנו כדי לחדד ולפתח את הגישה שלנו לטכנולוגיה המתפתחת הזו."

מצאתם טעות לשון?