גוגל הציגה את Gemini, מודל הבינה המלאכותית המתקדם ביותר שלה

אולי בישראל, בגלל המלחמה, קצת שכחנו מהתחום שהכי סקרן אותנו בשנה האחרונה, אבל הבינה המלאכותית כאן כדי להישאר וממשיכה להשתפר כל הזמן. היום (ד') הציגה גוגל את Gemini (ג'מיני), מודל הבינה המלאכותית החדש שלה, "הגדול ובעל היכולות הגבוהות ביותר שלנו", כך לדברי החברה – והמתחרה הישיר של GPT-4 של OpenAI.

על פי סונדאר פיצ'אי, מנכ"ל גוגל, ג'מיני הוא המודל הכי גמיש שגוגל ייצרה, ומסוגל לרוץ על סוגים שונים של פלטפורמות, ממרכזי נתונים ועד מכשירים ניידים. לדבריו, היכולות פורצות הדרך שלו יקנו למפתחים וללקוחות ארגוניים דרכים חדשות לפתח ולצמוח באמצעות בינה מלאכותית. בגוגל מספרים כי העמידו את מודלי Gemini בבחינות קפדניות כדי להעריך את הביצועים שלהם במגוון משימות כמו טקסט, אודיו, תמונה, קידוד ועוד.

פיצ'אי מתגאה כי "הביצועים של Gemini Ultra (המודל הכי גדול ומתוחכם) במשימות רבות, מהבנת תמונה טבעית, דרך חשיבה מתמטית ועד להבנת אודיו ווידאו, טובים יותר ב-30 מתוך 32 המדדים (benchmarks) המקובלים בענף".

על פי גוגל, ג'מיני אולטרה הוא הדגם הראשון שביצועיו עולים על אלה של מומחים אנושיים ב-MMLU (הבנת שפה רב-משימתית מסיבית). הוא קיבל ציון של 90.04% ב-MMLU, בדיקה המשלבת 57 תחומים כגון מתמטיקה, פיזיקה, היסטוריה, משפטים, רפואה ואתיקה כדי לבחון את הידע העולמי ואת יכולות פתרון הבעיות של מודלים.

מה היכולות שלו?

Gemini 1.0 (הגרסה שיוצאת כעת) הוכשר לזהות ולהבין בו זמנית טקסט, תמונות, אודיו ועוד, וזה עוזר לו להבין מידע מורכב ולענות על שאלות הנוגעות לנושאים מסובכים. על פי גוגל, בזכות היכולות האלה, שנקראות מולטי-מודאליות, הוא מספק הסברים מצוינים למתמטיקה ולפיזיקה, והוא יכול להיות "מורה פרטי" למי שמתקשה בשיעורי הבית.

היכולות שלו יכולות לעזור להבין מידע כתוב וחזותי מורכב, ולכן, על פי החברה, הוא מצטיין בחשיפת ידע שמסתתר בתוך כמויות אדירות של נתונים. בגוגל מאמינים כי היכולת שלו לחלץ תובנות ממאות אלפי מסמכים באמצעות קריאה, סינון והבנת מידע, תסייע להשיג פריצות דרך חדשות בתחומים רבים, ממדע ועד פיננסים.

הגרסה הראשונה של ג'מיני יכולה להבין, להסביר וליצור קוד באיכות גבוהה בשפות התכנות הפופולריות בעולם, כמו ל-C++, Python, Java, ו-Go.

גוגל מתייחסת גם לנושא הבטיחות של בינה מלאכותית, אחד הנושאים הבוערים ביותר בתחום, ומבטיחה כי היכולות של ג'מיני מתוכננות בהתאם למדיניות בטיחות מקיפה, וכי בכל שלב ושלב של הפיתוח, היא שוקלת את הסיכונים הפוטנציאליים ומקפידה לבדוק ולנטרל אותם.

"כדי לזהות 'שטחים עיוורים' בגישת ההערכה הפנימית שלנו, אנחנו משתפים פעולה גם עם קבוצה מגוונת של מומחים ושותפים חיצוניים שעוזרים להעמיד את המודלים שלנו בבדיקות מחמירות במגוון נושאים", מצהירים בגוגל.

בנוסף, כדי לאבחן בעיות בטיחות בתוכן שג'מיני מפיק בשלב ההכשרה שלו, ולוודא כי התשובות שהוא מפיק תואמות את המדיניות של החברה, בגוגל משתמשים במדדים כגון הנחיות רעילות אמיתיות (Real Toxicity Prompts), לקט של 100,000 הנחיות בדרגות רעילות שונות שנשלפו מהרשת, שפותח על ידי מומחים ב-Allen Institute of AI. בגוגל אף בנו מסווגי בטיחות (safety classifiers) ייעודיים שמסוגלים לזהות, לתייג ולמיין תוכן הכולל, למשל, אלימות או סטריאוטיפים שליליים.

Gemini 1.0 מושק עכשיו במגוון מוצרים ופלטפורמות של גוגל, וג'מיני פרו (המיועד לביצוע שלל משימות בהיקפים גדולים) ישתלב גם בצ'אטבוט של גוגל, בארד (Bard). כרגע השילוב ביניהם זמין רק באנגלית ביותר מ-180 מדינות, ובחודשים האחרונים יתרחב לשפות ומקומות נוספים. על פי גוגל, מדובר בשיפור הגדול ביותר שעבר בארד מאז השקתו.

ג'מיני יושק גם בטלפון החדש של גוגל, פיקסל פרו 8. הטלפון מציע פיצ'רים חדשים כמו סיכום (Summarize) באפליקציית ההקלטה, וההשקה של תשובות מהירות (Smart Reply) ב-Gboard, המקלדת של גוגל, בשלב הראשון בוואטסאפ ובהמשך השנה באפליקציות נוספות.

בחודשים הקרובים מבטיחים בגוגל כי Gemini יהיה זמין במוצרים ובשירותי ליבה כמו חיפוש, מודעות, כרום, ו-Duet AI.

ומה לגבי תשלום? כרגע המודל של ג'מיני הוא חינמי, ובגוגל אומרים שכעת הם לא חושבים על מוניטיזציה (ניצול הנכסים הדיגיטליים בשביל רווח כספי, למשל דמי מנוי לגרסת פרימיום וכו'), אלא רק מתמקדים בפיתוח הטכנולוגיה.

מצאתם טעות לשון?