N12 - בישראל מקווים: בעתיד נפתח ChatGPT גם בעברית

צמד המילים צ'ט GPT כבר הפך לחלק מעולם המושגים היומיומי שלנו. בין אם אנחנו מנסים להתקיל אותו עם משימות יצירתיות כמו חיבור שירים או משימות חשובות יותר כמו עזרה בעבודה אקדמית - הכלי של Open AI תופס עוד ועוד מקום בהתנהלות היומיומית שלנו. אך לצד אי הדיוקים שצ'ט GPT מספק לפעמים, האתגר המרכזי בשימוש בו הוא השפה - קשה מאוד להשתמש בו בעברית.

על האתגר הזה מנסים להתגבר עכשיו ברשות החדשנות עם קול קורא לאנשי תעשייה ואקדמיה ליצור כלים ומאגרי מידע שיוכלו לעזור בשפה העברית, יוזמה שמוצגת היום (שלישי) בכנס "מדעי הנתונים" השנתי של הפקולטה למדעי המחשב במסלול האקדמי המכללה למנהל. "מהחוויה שלנו, הצ'ט GPT בעברית מביך ממש לעומת היכולות שלו באנגלית", אומרת ל-N12 יעל רוזנברג, מנהלת אגף תשתיות מחקר ופיתוח לתעשייה ברשות החדשנות. "אנגלית היא שפה בתפוצה רחבה, אז גם עולם הפיתוח של המתקדם. בשפות מעוטות משתמשים כמו עברית או רומנית והונגרית, הפיתוח שלהן הוא הרבה יותר קטן, ולחברות בתעשייה הפיתוח לא מספיק משתלם כלכלית. אז כדי שיהיו פתרונות טובים לעברית ולערבית פלסטינאית, אנחנו צריכים שיהיה אינטרס לפתח את התשתיות הנדרשות".

יעל רוזנברג (צילום: אייל פאר) — יעל רוזנברג | צילום: אייל פאר

אמנם הפיתוח של כלי ה-AI בעברית עדיין נמצאים בחיתולים, אבל השימוש בכלים הללו בישראל הוא דווקא נרחב. מנתונים שאספה חברת המודיעין העסקי סימילרווב שמנתחת נתוני גלישה באתרים, עוד שרק בחודש האחרון נרשמו 6.7 מיליון כניסות ישראליות לאתר של צ'ט GPT. בכל יום נרשמות בממוצע יותר מ-239 אלף כניסות והישראלים גולשים באתר כ-7 דקות בכל פעם. מעבר לכך, בעוד בעולם רואים מעין "השתטחות" בנתוני הגלישה בשימוש בצ'ט, שהושק לשימוש ציבורי בנובמבר שעבר, בישראל דווקא נרשמה עלייה במספר הכניסות בחודשים האחרונים.

"ללא ספק תחום החיפוש עובר שינוי עכשיו", אומר ל-N12 ד"ר כפיר בר, מרצה בכיר בפקולטה למדעי המחשב במכללה למנהל. "זה קטליזטור לשינוי בתפיסה של חיפוש טקסטואלי. בסופו של דבר נלמד לחפש אחרת, משהו יותר טבעי". ואכן נדמה שההשקה של צ'ט GPT הצליחה לטרוף מחדש את הקלפים בתחום החיפוש, כאשר גם המתחרה ששולטת בתחום, גוגל, עובדת על פיתוח מודל עיבוד שפה טבעית משלה.

על פניו, הרעיון מאחורי מודל של עיבוד שפה טבעית הוא פשוט: המשתמשים מקישים בו שאלה, והמודל צריך למצוא תשובה שתתאים באופן הכי טוב למה שהתבקש לחפש. אבל למכונות עדיין קשה להבין למה מתכוונים בני אדם כשהם מתקשרים במילים. כך למשל קל לנתח תמונות בעזרת הפירוק שלהן לפיקסלים והייצוג שלהם במספרים, אבל מילים הן הרבה יותר אמורפיות והמחשבים לא באמת "מבינים" מה הן מייצגות. לכן הפיתוח הטכנולוגי שעומד בבסיס המודלים לעיבוד שפה מתבסס על סטטיסטיקה: חושפים את המודל לכמות גדולה מאוד של טקסטים ומאמנים אותו לזהות אילו מילים סביר שיופיעו קרוב אחת לשנייה. המודלים האלה בעצם יודעים לנחש בסבירות גבוהה מהי המילה הבאה שאפשר לכתוב בטקסט מסוים, כמו למשל ההשלמה האוטומטית בהודעות או באימיילים.

"האתגר הגדול זה ההבנה – לא רק לעבד שפה טבעית, אלא להבין אותה", אומרת ל-N12 ד"ר גלית חיים, סגנית הדיקאן בפקולטה למדעי המחשב במסלול האקדמי המכללה למנהל. "להסיק מסקנות קונקרטיות ממילים זה אתגר גדול מאוד, והבינה המלאכותית עדיין לא שם". גם ד"ר חיים, שמשתתפת היום בכנס "מדעי הנתונים" יחד עם עוד 500 חוקרים, מנסה להבין כיצד ניתן לאמן את הבינה המלאכותית לשרת את הציבור. בין היתר המחקר שלה עוסק במשא ומתן בין בני אדם לבין סוכנים ממוחשבים, כמו למשל בוטים של מכירות שעובדים בין היתר עם מודלים לעיבוד שפה. "תחשבי שאת רוצה לקנות ביטוח. הבוט צריך להיות מספיק חכם כדי להבין מול מי הוא עושה את המשא ומתן ולתת לך את ההצעה הכי אטרקטיבית, כזו שתתאים לך".

"יש לנו הזדמנות מדהימה להסתכל על כל תחום מחדש", מספר ל-N12 ינאי זגורי, AVP Organizational Growth ב-AppsFlyer, חברה שמפתחת יכולות ניתוח ומדידה של קמפיינים דיגיטליים, שמאפשרת לאנשי השיווק לנתח את עבודתם כדי לטייב אותה. לאחרונה השיקו ב-AppsFlyer כלי למדידת הפעילות שנכנסת דרך התוספים של הצ'ט GPT. הטכנולוגיה תאפשר לאנשי שיווק למדוד את פעילות הלקוחות שלהם דרך התוספים של צ'ט GPT בכל הפלטפורמות. "צ'ט GPT מאפשר לאנשים לקבל החלטות על בסיס תובנות שהם מצליחים לשלוף בצורה נוחה ולא על בסיס תחושות בטן", הוא אומר.

אך מעבר לשימושים העסקיים, זגורי מעודד את כלל הציבור להתנסות כמה שיותר בעבודה עם מנועים כאלה בזכות היכולת שלהם לשפר את התקשורת בין אנשים. "ההזדמנות הזו היא מאוד מרגשת. יש לנו פה רגע מאוד מעניין באספקט שבוחן אם מכונות ואנשים יצליחו לתקשר כדי שאנשים יתקשרו טוב יותר. יש לזה הרבה השלכות על היבטים של עבודה אפקטיבית". בין היתר, אומר זגורי, אפשר להשתמש בכלים של הבינה המלאכותית כדי לשפר נוסח של מכתב או בקשה מסוימת, בין אם מדובר במסמך מורכב או מכתב תלונה לרשות המקומית.

ד"ר גלית חיים (צילום: אייל פאר) — ד"ר גלית חיים | צילום: אייל פאר

ד"ר כפיר בר (צילום: Basis Technology) — ד"ר כפיר בר | צילום: Basis Technology

ועדיין, הפיתוח של המודלים לעיבוד שפה טבעית נמצאת רק בתחילתו וצפויים לנו חידושים טכנולוגיים רבים בתחום, בייחוד למשתמשים הישראלים. "בעברית יש כמה אתגרים", מדגיש ד"ר בר. למשל עברית וערבית הן שפות עתירות מורפולוגיה. בנוסך, רוב הכלים המודרניים לעיבוד שפה טבעית נעשים על בסיס מאגרים טקסטואליים ושיטות סטטיסטיות, וצריך הרבה טקסטים כדי לתת תמיכה לאלגוריתמים האלה".

"בלי מוטיבציה ודחיפה ממשלתית, זה אולי היה קורה אבל אולי עוד 10 שנים. אולי היינו מפספסים את המומנטום", קובעת רוזנברג כשהיא מתייחסת לפיתוח מודלי השפה ומאגרי המידע בעברית. "החברות האלה מתרגלות ללכת לחו"ל והיינו מפסידים כאן שיתופי פעולה". לכן ברשות החדשנות יצאו בקול קורא לפתח את הטכנולוגיה הזו, במסגרת התוכנית הלאומית לבינה מלאכותית במדעי הנתונים שמוביל זיו קציר. ועדיין, רוזנברג מדגישה כי הקול הקורא של הרשות מאפשר ליזמיות ויזמים רבים להציע קשת רחבה של פיתוחים שיכולים לעזור בעבודה על הטכנולוגיות הללו: "אנחנו פונים לעולם התוכן המקצועי, אז אנחנו משאירים את הקול קורא פתוח. אנחנו מאפשרים גמישות לאנשים שמגישים כי אולי הם יודעים משהו שאנחנו לא".

מצאתם טעות לשון?