באירוע ההכרזה של גוגל בתערוכת CES 2020 בלאס וגאס, הציגה החברה לא מעט חידושים בתחום העוזרת הקולית הפופולרית והמוצלחת שלה. אחד החידושים הבולטים ביותר היה יכולת הקראת עמודי האינטרנט החדשה של האסיסטנט.
מי שעומדים מאחורי הפיתוח המרשים הזה הם צוות מהנדסים ממרכז הפיתוח של גוגל בתל אביב, שחלקם אף הוזמן לקחת חלק באירוע לאחר פיתוח קדחתני של שנתיים. ישבנו עם שלומי בן שמעון, מהנדס תוכנה בגוגל, ודוד קדוש, מנהל מוצר בגוגל, כדי להבין איך הפיצ’ר פותח וגם כדי לענות על שאלת השאלות: למה עדיין אין אסיסטנט בעברית?
האתגר של הפיצ’ר החדש: להתעלם מהמסיחים
הפיצ’ר החדש של האסיסטנט בעצם מאפשר למשתמשים לגלוש לאתרים עם טקסט, ופשוט לבקש מהעוזרת להקריא להם את הכתוב. לכאורה, יישום לא מורכב מדי של Text-To-Speech. אבל זהו, שלא. בן שמעון מסביר לנו שאחד האתגרים הקשים ביותר היה בנייה של מנגנון חכם שיודע להתעלם מגורמים טקסטואליים בעייתיים בדפי אינטרנט כמו תיאורי תמונות, תפריטים, תאריכי פרסום של כתבות, פרסומות ושאר טקסטים שאם העוזרת הייתה מקריאה, היו מבלבלים אתכם וגורמים לכם להפסיק להשתמש בפיצ’ר.
בהדגמה שנערכה לנו באירוע של גוגל, הפיצ’ר עבד בצורה מרשימה ואכן הקריא את הטקסט בצורה רציפה בקול המסונתז אך המוכר והנוח של האסיסטנט, והתעלם לגמרי מאלמנטים מסיחים בתוך גוף הכתבה כמו פרסומות, כפתורים ואלמנטים שונים של ניווט בדף. עם זאת, למרות שגוגל הכריזה שהפיצ’ר תומך בהקראה ב-42 שפות, לצערנו – גם הפעם – עברית לא ברשימה של גוגל, על אף שהפיתוח של הפיצ’ר התבצע במרכז הישראלי.
למרות שהוא לא תומך רשמית בעברית, פיצ’ר ההקראה החדש כן מאפשר להכנס לדפים בשפות זרות, ולהקריא את הטקסט באנגלית אחרי תרגום. ניסינו את הפיצ’ר עם כתבה של גיקטיים והוא פשוט הצליח בתוך רגע לתרגם את הכתבה בצורה מרשימה, ולא בנוסח שאנחנו מכנים בזלזול “Google Translate”, כלומר תרגום מכונה לא חכם. למרות ההדגמה המוצלחת, לא מדובר ב-100 אחוזי הצלחה, וחלק מההקשרים והמשמעויות אבדו בתרגום.
מי חשב שניקוד יהפוך לכזו בעיה?
מהשיחה עם בן שמעון וקדוש עולה כי חוסר התמיכה של פיצ’ר בהקראה בעברית הוא בעצם אותה הסיבה שבגינה האסיסטנט של גוגל עדיין לא תומכת בעברית: “להבין מישהו שמדבר בעברית זו ממש לא בעיה. לקחת את הסאונד של בנאדם מדבר ולפענח את זה למילים – זה אפשרי – גם בעברית וגם בשפות אחרות” מסבירים השניים. לדבריהם, יש פיצ’רים שעובדים לא רע כמו החיפוש הקולי בווייז למשל, אבל הבעיה מתחילה כשצריך לענות בחזרה למשתמש עם קול מסונתז בעברית.
קדוש מסביר כיצד עברית מאתגרת את הצוות של גוגל בצורה משמעותית, בעיקר לאור העובדה שהיא שפה “חסכונית” באותיות: “ברגע שאין את הניקוד, קשה לדעת איך להקריא את המילים בצורה נכונה. התוכן בעברית הוא לא מנוקד. כשבני אדם קוראים בלי ניקוד, הם מפענחים בראש שלהם את המילה הנכונה בעזרת ההקשר של הטקסט. הם יודעים להבדיל בין המילה ‘רכבת’ (כלי התחבורה, ע.ב) ו’רכבת’ (כלומר, רכבת בעבר. ע.ב). למחשב זה הרבה יותר מסובך”.
שלומי בן שמעון, מהנדס תוכנה (משמאל), ודוד קדוש, מנהל מוצר (מימין). צילום: גיקטיים
קדוש ובן שמעון מסבירים שאיכות מנגנון הקראת הטקסט פשוט לא מספיק טובה כרגע כדי שגוגל תדגים אותה. אבל כן חושפים כיצד החברה מתמודדת עם הבעיה הזו: “יש לנו אנשי מחקר ששוקדים על הבעיה הזאת ומשתמשים ב-Machine Learning כדי לבנות אלגוריתמים מתאימים. מילים מסוימות קשורות לעיתים למילים אחרות ולהקשרים שונים. הכללים של השפה לא מספיקים, וצריך להבין גם את המילים האחרות שגם הן לא מנוקדות. זו בעיה מאוד מסובכת שלא מאפשרת לכתוב חוקים פשוטים”.
קדוש, שמגדיר את נושא העברית כ”אתגר אישי”, מסביר כי אותם אלגוריתמים זקוקים לכתבות אינטרנטיות מנוקדות, ומאחר שאין הרבה כאלו, הן דורשות כוח אדם רב וספציפי מאוד כדי לייצר דאטה איכותי. גם אחרי שהאסיסטנט תדע לדבר עברית באופן מלא, יחכו לצוות עוד כמה אתגרים של פענוח פקודות והוראות שונות שיאפשרו את השקת האסיסטנט בעברית. “אני מאמין שזה יקרה”, מסכם קדוש בצורה חצי אופטימית.
ומה בנוגע לאפל? כבר כמה שנים שיש לה עוזרת קולית דוברת עברית
“בפעם האחרונה שבדקתי את סירי באנגלית, היא לא מגיעה ליכולות של האסיסטנט. גם מבחנים מוכיחים את זה. הם החליטו שעבור סירי מה שהם עשו מספיק טוב וזה הרף שלהם. כל אחד עושה את השיקול שלו”.
אתם מרגישים שהשוק הישראלי ודובר העברית מספיק חשוב לגוגל?
“המדיניות של גוגל היא להשיק בכמה שיותר שפות. אבל יש לה תעדופים. לעברית יש שתי בעיות: היא גם שפה קשה וגם היא לא השוק הכי גדול. ביחד, בתחום של האסיסטנט, מקצים לזה משאבים, אבל יכול להיות שיש שווקים אחרים שעוקפים אותנו בדרך. אלה החיים”.
עוד ב-Geektime
סוף סוף: מטען שגם יחטא לכם את הסמארטפון
טעמתי את ”בשר החזיר” החדש של Impossible, שאפילו רבנים יוכלו לאכול
בן שמעון מסביר שאתגרים נוספים שעמדו בפני הצוות, שלא קשורים בהכרח לעברית, הם בעיקר בתחום מהירות התגובה של המנגנון מהרגע שהמשתמש מבקש להקריא את התוכן, עד שזה מתבצע: “יש לנו Pipeline שמתחיל מהרגע שהמשתמש נותן את הפקודה. יש מודלי ML שמייעלים את חילוץ המידע ושיפור שלו מהדפים, ומנגנוני קאשינג חכמים והזרמה מהירה של האודיו למשתמש תוך כדי אופטימיזציה שלו”.
השניים מספרים כי הפיצ’ר היה בפיתוח במשך הרבה זמן, והצוות בראשות יוסי מטיאס, VP R&D ישראל, הרגיש שהוא בשל כעת להצגה לציבור. השילוב של ההתקדמות בפיתוח המוצר והמועד המתקרב של CES היוו הזדמנות עבור הצוות וגוגל להדגים את הפיצ’ר. “הצוות שלנו משתמש בפיצ’ר באופן קבוע. הרגשנו בטוחים מספיק להגיע לכאן ולהדגים את זה. זה עדיין Preview ויש לנו עדיין עבודה על זה, אבל הפיצ’ר יגיע למשתמשים בהמשך”.
אז הבנו את הבעייתיות, אבל מתי בפועל נוכל לראות תמיכה מלאה בעברית? לצערנו, המהנדסים מילאו את פיהם מים, ולא הצלחנו לקבל מהם תשובה. לצערנו, לפחות עכשיו, לא נראה שזה יקרה בעתיד הקרוב.