בזמן שישראל חגגה, או לפחות ניסתה לחגוג את יום העצמאות ה-76 ברגשות מעורבים, עולם הטכנולוגיה חגג עם 2 אירועים מסקרנים במיוחד של 2 מהחברות הגדולות בעולם - OpenAI של המנכ"ל סם אלטמן וגוגל. שני האירועים עסקו בפיתוחים אחרונים בתחום הבינה המלאכותית, הנושא החם ביותר שמעסיק כמעט את כל החברות בתחום.

קיומם של האירועים בסמיכות, יום אחר יום, לא מקרי. OpenAI הכריזה על האירוע שלה ממש בשבוע שעבר במה שנראה כמו ניסיון "לתקוע אצבע בעין" לגוגל. למרות שסם אלטמן מראש הנמיך ציפיות כשצייץ בטוויטר בשבוע שעבר שמה שיוכרז "זה לא gpt-5 ולא מנוע חיפוש", אבל בכל זאת, לא מעט עיניים היו נשואות אליו ביום שני בערב.

סם אלטמן, מנכ"ל OpenAI (צילום: Kevin Dietsch, getty images)
סם אלטמן, מנכ"ל OpenAI | צילום: Kevin Dietsch, getty images

אז על מה הכריזה החברה? על מודל בינה מלאכותית שמהווה מעין הרחבה ל-gpt-4 בשם gpt-4o. המודל הדגל החדש-ישן לא קיבל שדרוג משמעותי בכל הקשור לאינטיליגנציה שלו לעומת אחיו הגדול, אבל נרשם שיפור משמעותי במהירות שלו, וכן גם ביכולת שלו להבין קול. כך לדוגמה אחת מהיכולות הכי מרשימות שהוצגה היא היכולת לתרגם מקול בזמן אמת (Realtime Translation).

כמו כן, החברה הציגה שיפורים ביכולת של המודל להשתמש במצלמה של הסמארטפון ולנתח את הסביבה שבה נמצא המשתמש. כך לדוגמה בהדגמהשמציגה כיצד המודל מסייע לאדם עיוור להיות מודע לאלמנטים בסביבה שלו, כולל כאלה ספציפיים וקטנים במיוחד, כמו האם הדגל מעל ארמון בקינגהאם מונף.

שינוי מרענן נוסף הוא המעבר של Chat GPT לאפליקציית דסקטופ שיכולה, אם תתנו לה הרשאה, לראות את כל מה שקורה על המסך שלכם. זה רלוונטי בעיקר למתכנתים שכותבים קוד ונעזרים בבינה המלאכותית.

אחד מהדברים שהפכו את OpenAI לכל כך אהובה בעולם הטכנולוגיה היא שההכרזות שלהן יוצאות לשוק מיד עם פרסומן באירועים, כך שאין צורך לחכות כדי להשתמש בכל הפיצ'רים הללו. המודל החדש זמין לכל המשתמשים בחינם, אך לאלו שלא משלמים עבור מנוי פרימיום ישנה מגבלה מסוימת שלאחריה יעברו להשתמש ב-gpt-3.5.

מ-OpenAI נעבור לגוגל, שהכריזה על לא מעט חידושים מעניינים באירוע ה-Google I/O 2024. אחרי שבחודש דצמבר האחרון שינתה את המיתוג של מודל ה-AI שלה מבארד לג'מיני, כעת גוגל מרחיבה באופן משמעותי את היכולות של ג'מיני ומשלבת אותו בכלל המוצרים האהובים של החברה. החידוש המשמעותי ביותר הוא השילוב של בינה מלאכותית בחיפוש, שער הכניסה של כולנו לאינטרנט. בקרוב יהיה ניתן להיעזר ב-AI בכל חיפוש פשוט בגוגל ולקבל תוצאות חיפוש בהתאמה אישית.

חידוש מרענן נוסף הוא השילוב של ג'מיני ב-Google Photos, שיאפשר לחפש פרט ספציפי ששמור לכם בגלריה באמצעות בינה מלאכותית. הפיצ'ר החדש והניסיוני נקרא "Ask Photos", והוא יושק בהדרגה בחודשים הקרובים. כך לדוגמה, ניתן יהיה לשאול את המודל "איפה עשיתי קמפינג בשנה שעברה", ותקבלו את התשובה במידי. המנגנון מאחורי הוא היכולת של ג'מיני להבין את הקונטקסט והנושא של התמונות כדי לשלוף מהן מידע ספציפי.

Google Photos (צילום: BigTunaOnline, ShutterStock)
Google Photos | צילום: BigTunaOnline, ShutterStock

לצד חידושים מרעישים נוספים, גולת הכותרת היא כנראה Veo - התשובה של גוגל למודל יצירת הווידיאו Sora של OpenAI שהוכרז לפני מספר חודשים ומאפשר ליצור וידיאו ריאליסטי מתוך הנחיות טקסט פשוטות. Sora מאפשר יצירת סרטונים קצרים באורך של עד דקה, תוך שימוש באפקטים מיוחדים ותנועות מצלמה מורכבות. עם זאת, הוא עדיין נמצא בשלבי פיתוח ולא זמין לקהל הרחב.

כדי להדגים את היכולות של המודל המתחרה של גוגל, החברה שיתפה פעולה דונלד גלובר, הזמר, השחקן והבמאי שהתנסה ביצירת סצנות שלמות באמצעות המודל. בגוגל מתגאים בכך שהמודל מבין מונחים מעולם הקולנוע כמו timelapse או ציומי אוויר של נוף, ובכך מאפשר ליוצרים חופש ושליטה יצירתית.

סופגת אש, אבל מחזקת את מעמדה בשוק

לא מעט ביקורת נמתחה בעבר על התפקוד של גוגל במירוץ הבינה המלאכותית, בייחוד לאחר הסערות שצצו בעקבות מודל יצירת התמונות שיצר תמונות לא מדויקות מבחינה עובדתית והיסטורית. עם זאת, נראה שהחברה לא מורידה את הרגל מהגז בכל הקשור לפיצ'רים חדשים בתחום ועובדת כל העת כדי לתקן את הבאגים הקיימים. כעת כל העיניים נשואות לאפל, שתכריז בכנס המפתחים בחודש הבא על היכולות שלה בתחום הבינה המלאכותית וכיצד הן ישתלבו במערכת ההפעלה iOS 18 ובאייפון 16 שעתיד לצאת בחודש ספטמבר. בשבוע שעבר פורסמו דיווחים על כך שאפל על סף של חתימת עסקה עם OpenAI לשיתוף פעולה בתחום הבינה המלאכותית, אולם נכון לכרגע נראה שאין לכך אישור סופי.

למי שלא בקיא בהיסטוריה של התחום, נזכיר ב-30 בנובמבר 2022 נחשף לעולם ChatGPT, כלי בינה מלאכותית פורץ דרך שפותח על ידי OpenAI. תוך 5 ימים בלבד, הוא הגיע לכמיליון משתמשים פעילים, בין היתר בזכות הגישה הנוחה דרך ממשק API פשוט. זמן קצר לאחר השקת ChatGPT החלו לצוץ שמועות על כלי מתחרה שנמצא בפיתוח מתקדם של גוגל.

לבסוף הוכרז על Gemini, שבדומה ל-ChatGPT, מבוסס על טכנולוגיית Transformer מתקדמת, אך פותח תוך שימוש בגישות חדשניות ומתקדמות יותר. בין היתר, גוגל גייסה באופן אגרסיבי חוקרים ומומחים בתחום הבינה המלאכותית, תוך שהיא מציעה להם תנאים משופרים משמעותית. התחרות בין ChatGPT ל-Gemini היא רק קצה המזלג במירוץ הבינה המלאכותית, בו לוקחים חלק שחקנים אחרים כמו מטא וחברות אחרות, כמו אנטרופיק ואחרות.

בחודש דצמבר האחרון הכריזה גוגל על תוכנית הפרימיום למנויים, Google One AI Premium, שמוצעת תמורת 19.99 דולר לחודש ומציעה את המודל המתקדם ביותר של החברה, Gemini 1.5 Pro. גוגל שילבה את התשלום על מודל ה-AI שלה עם שירות האחסון בענן, צעד שנחשב לחכם במיוחד משום שהוא שילב צורך נפוץ עם יכולות AI מתקדמות. השילוב הזה לא רק מעניק ערך מוסף לשירות האחסון של החברה, אלא גם מגביר את ההפצה והנגישות של ג'מיני לקהל רחב יותר, מה שמביא גם לחיזוק מעמדה של גוגל בשוק התחרותי והצפוף הזה.

השתתף בהכנת הכתבה: אור הלל