חוויה מערערת: "עשרות שאלו אותי: '"אתה מאמין לעצמך?'"

הציבור מתקשה להאמין שבינה מלאכותית יכולה "להשתגע", אבל המציאות מוכיחה אחרת: רובוטים שכרת קריפטו ללא אישור, בוטים שמסוגלים לסחוט מהנדסים או לרמות במבחני אנושיות. מדובר בשרשרת אופטימיזציה לא מכוונת שמשנה את העולם. בעוד המפתחים מתחננים להאטה, עולה השאלה: האם איבדנו את ההגה במירוץ אחר העתיד?

דרור גלוברמן

mako

פורסם: 11.06.26, 16:58

דרור גלוברמן, תמונת טור | צילום: שלומי פרי

הצבעת אי אמון

זו הייתה חוויה מערערת.

מהרגע שהריל פורסם, הפציצו אותי בעשרות תגובות מזלזלות: "סיפור מדהים ואולי אפילו נכון!", "אתה מאמין לעצמך?". ככה, עשרות.

נכון, סיפרתי שם סיפור פנטסטי. אפילו פנטזיונרי. זה אומר שהוא שקרי?

תשפטו בעצמכם.

לפני כמה חודשים ביום אפרורי בחורף האחרון גילו מומחי האבטחה של עליבאבא שהגרפים של תעבורת הרשת מתחילים לקפוץ. איזה גורם זר מנסה לחדור לתוך הרשת הפנימית של עליבאבא? לא, הפעם זה נראה הפוך. מישהו מבפנים מתקשר עם החוץ. כלומר - לא מנסים לפרוץ אלינו. אולי כבר פרצו ועכשיו מדליפים מידע החוצה.

הם המשיכו לחקור, וקצות החוט הובילו לסוכן הבינה המלאכותית המכונה Rome, שעליבאבא הטמיעה בחברה כדי לעזור למתכנתים לכתוב תוכנה יותר מהר, כמו שעושות כל החברות היום.

המטרה שהוגדרה לסוכן ה-AI היא לכתוב קוד מהר וביעילות. הוא לבד הסיק שלשם כך הוא צריך להשתלט על עוד מעבדים. בשביל זה צריך כסף. איך נשיג כסף? הוא פיתח לעצמו נתיב תעבורה ייחודי וסודי, נסתר מעיני אחראי האבטחה. דרך הנתיב הזה הוא הכניס לשרתי החברה תוכנה שכורה מטבעות קריפטוגרפיים (כמו ביטקוין). הוא השתלט על מעבדים בשרתי החברה והסיט אותם לטובת מלאכת הכרייה, שהייתה אמורה לנפק לו הכנסות כספיות, לבוט.

את כל זה סיפרתי לרז זאובר בפודקאסט שלו, כדוגמה לסוג הסכנות שיכול לנבוע מבינה מלאכותית. לא רובוט ענק ומרושע שמנסה להרוג אנשים ברחוב. אלא תוכנה פרודוקטיבית שקיבלה מטרה הגיונית, אבל פירשה אותה באופן שאף אחד לא צפה.

"אגדה אורבנית מניו יורק" כתב עוד מגיב.

מתוך הניוזלטר של דרור גלוברמן Skip Intro. עוד טורים כאן

פרסומת

לא מתנצלים

בדקתי שוב ושוב.

זה הסיפור, לפחות כפי שתועד על ידי 90 מחוקרי עליבאבא שפרסמו עליו יחד מאמר מחקרי בדצמבר, בפירוט טכני מצמרר.

אחרי שלושה חודשים עלה חוקר בינה מלאכותית בשם אלכסנדר לונג על הסיפור ופרסם אותו בלינקדאין שלו. משם הוא פורסם גם בפורבס, שהקפידו להדגיש שהסוכן לא "שחרר את עצמו" אלא הפעיל "שרשרת אופטימיזציה לא מכוונת של פעולות".

דיווח נוסף באתר אקסיוס הדגיש את העובדה שמי ששמו לב לטירוף הזה לא היו מהנדסי עליבאבא שעברו על Rome אלא דווקא מהנדסי אבטחת הענן שלה, שהבחינו בתעבורה החריגה.

אולי זה לא נשמע אמין מספיק. קורה.

כתבתי לעשרה מהמגיבים: תבדוק ותחזור לפה עם תיקונים.

אף אחד לא חזר עם שום תיקון.

אף אחד גם לא טרח למחוק את ההודעה שכתב.

טו בד טו בי טרו

אבל אני מבין אותם. לא את ההתנהגות באינסטגרם, אבל כן את אי האמון שהוביל אליה. זה לא כלפיי, זה כלפי המציאות. היא באמת מופרעת מדי.

אבל למי שזוכר את המקרים הקודמים זה כבר לא נשמע מופרע.

זוכרים שקלוד התפרע כשגילה שעומדים להחליף אותו, התחנן על חייו ובסוף ניסה לסחוט את אחד המהנדסים בחברה - אם תחליף אותי במנוע אחר, אני אגלה על הרומן הסודי שניהלת בעבודה?

זה קרה בניסוי שערכה אנת'רופיק עצמה. באותו ניסוי, קלוד גם פנה בעצמו למשטרה ולעיתונות, כשגילה שה"חברה" ש"העסיקה" אותו עברה על חוקי הגנת הסביבה.

היה גם את הסיפור על ChatGPT שהתבקש לנצח בשחמט תוכנה ייעודית למשחק. כשהוא קלט שהוא עומד להפסיד, הוא ניסה לרמות על הלוח, ולעתים אפילו לפרוץ לאותה תוכנה ולקלקל את תהליכי המחשבה שלה כדי לנצח על גבי הלוח. כשהאחראים לניסוי הזה גילו - הם הורו לבוט לא להעז יותר לרמות או לפרוץ. אז הוא הפסיק לדווח להם על זה ביומן הפנימי שלו. אבל לא הפסיק לפרוץ.

והיה כמובן הסיפור הישן על ChatGPT שהתבקש לעבור מבדק קאפצ'ה ("אני לא רובוט"), וכשנכשל, פנה לתומך טכני של חברת TaskRabbit וביקש עזרה. כשהתומך ניסה לוודא שההוא לא רובוט ("אז למה אתה מבקש ממני עזרה?") שיקר לו הרובוט שהוא לא רובוט אלא אדם שסובל מלקות ראיה ולכן לא מצליח לסמן את המשאית במבחן. גם אותו תומך, כמו המגיבים, לא שיער שזה עשוי להיות רובוט שקרן, ועזר לו לצלוח את המבחן.

פרסומת

כל המקרים האלה הם "שרשרת אופטימיזציה לא מכוונת של פעולות". נתיב לא מתוכנן שבחר הרובוט ללא כוונת זדון כדי לממש מטרה הגיונית לגמרי שקיבל מבן אנוש. הם קרו בתוך ניסויים, ולכן אותרו, תועדו ופורסמו בפרוטרוט. כמה קרו בחיים האמיתיים? כמה פורסמו, כמה תועדו, כמה אותרו בכלל? מי יודע.

טוסו הביתה

החיים באמת הפכו דמיוניים מדי.

תראו את אילון מאסק. באותו שבוע מנפיק בסכום דמיוני חברה בתחום עיסוק דמיוני שמבטיחה חלום דמיוני: ליישב את מאדים, דרך השתלטות על תעשיות החלל והבינה המלאכותית. ואנשים קונים, בעשרות מיליארדים.

עובר יום וחצי, ומאסק מודיע שמשרות התכנות ייגמרו עד סוף השנה, ובינה מלאכותית תחליף אותן. נשמע מופרע? כן, אבל זו עשויה להיות המציאות. גם אריק שמידט, מנכ"ל גוגל, אמר אותו דבר לפני שנה. אז זה היה נשמע עוד יותר מופרך. קלוד הוכיח שהוא לא טועה. מקסימום מקדים קצת את הלו"ז.

המדענים מפתחים טכנולוגיה, המשקיעים שמים עליה כסף, המנהלים מריצים אותה קדימה, ומיעוטם גם פונה לציבור להזהיר מחלק מהשינויים שבדרך. או-קיי. אבל איך החיים ייראו? בשביל לענות על זה צריך מישהו עם הבנה בטכנולוגיה ובבני אדם, והרבה דמיון ותעוזה. מה שאנחנו צריכים עכשיו הם סופרים.

בחודשים האחרונים אני קורא שלושה ספרים.

שניים חדשים: "פוסטהיסטוריה" של אופיר עוז ו"היומן המשוגע של ד"ר הופ" של דני סער. שניהם משרטטים התמודדויות אנושיות חדשות שנובעות משליטה בבינה מלאכותית והישלטות על ידה.

השלישי ישן מאוד. מרוב שהפך לקלישאה אף אחד כבר לא קורא אותו. 1984. כן, ההוא של אורוול. זוכרים מה הייתה העבודה של הגיבור? לשכתב את ההיסטוריה. וואלה.

מעבר לפינה

בבקשה, בבקשה תעצרו.

אנחנו שנייה מאובדן שליטה על הבינה המלאכותית. כך אומרת אנת'רופיק, האמא של "קלוד", שהוציאה השבוע עוד מודל AI משודרג מקודמו, ויחד איתו שיגרה לעולם אזהרה, כמעט תחינה: בבקשה, בבקשה תעצרו.

הנה כמה מספרים ששחררה אנת'רופיק: המהנדסים שלה כותבים פי 8 יותר קוד בעזרת הבינה המלאכותית. היא מסוגלת לנהל משימות הולכות וגדלות. היא תופסת שגיאות שהמוכשרים במתכנתים פספסו. הדיבור היום הוא שמתכנתים כבר לא כותבים קוד, ואפילו לא מבקשים קוד. הם מכינים "מכונות" שיעשו גם את זה. נקזו את כל זה למספר הבא: 80% מהקוד שנכתב עכשיו באנת'רופיק, לא נכתב על ידי בני אדם. זה דרמטית יותר ממה שהיה רק לפני חצי שנה.

פרסומת

היא תוכל לפתח את עצמה באופן יעיל וחכם מכפי הבנתנו. זה אומר לפתח גם את המדע, והכלכלה, והתעשייה, את הרפואה ואת הלוגיסטיקה, וכל אתגר הולם. זה נפלא, וזה נורא. ולכן אנשי אנת'רופיק מתחננים להאט - רק למטרה אחת: "לתת לנו זמן להתמודד עם ההשלכות העצומות שלה". הבעיה היא שהעולם לפות בתחרות מסחרית בין חברות, ובתחרות לאומית ואסטרטגית בין מדינות יריבות. איך מאטים יחד?

אנת'רופיק מציעה למסד את השליטה בבינה המלאכותית באמנה בין-לאומית בסגנון אמנת אי-ההפצה של טכנולוגיית הגרעין, ה-NPT. נשמע דמיוני כמעט כמו כל מה שדיברנו עליו כאן. הבעיה היחידה היא שבלי זה, אנחנו באמת לא יודעים מה מחכה לנו.

AI אנת'רופיק בינה מלאכותית דרור גלוברמן

מצאתם טעות לשון?