מאז שפרץ לחיינו בסערה אשתקד הספיק ChatGPT להיכנס לשימוש יומיומי של הציבור הרחב ושל אנשי מקצוע גם יחד. הצ'אט-בוט המבוסס על בינה מלאכותית מסייע לתלמידים בגיל בית ספר ולסטודנטים לבצע מטלות בלימודים, ואף השתתף לאחרונה בהכרעות משפטיות, בניהול השקעות בשוק ההון וידו הווירטואלית עוד נטויה.

בינה מלאכותית ממלאת שלל משימות ברפואה מזה שנים, ואך טבעי שתתעורר השאלה אם גם ChatGPT מסוגל להשתתף במשחק. אולם חשוב לזכור שבינה מלאכותית היא יעילה כל עוד השימוש בה הוא אחראי ומודע למגבלותיה ולנקודות התורפה שלה.

 

הכתבה פורסמה במקור באתר מכון דוידסון לחינוך מדעי

 

מחקר שפורסם לאחרונה בחן את יכולות הבוט בתחום השאילתות הרפואיות, והסיק כי הבוט מספק תשובות איכותיות ואמפתיות, שעדיפות על פני תשובות של רופאים. כלי התקשורת מיהרו לקפוץ על העגלה והמליצו לרופאים להתייחס ברצינות הראויה לבינה המלאכותית, אך מבלי שפקפקו מדי במסקנות המחקר. המציאות, כדרכה, מורכבת יותר.

 

שורה של כשלים

לצורך ההשוואה השתמשו החוקרים ב-195 שאלות רפואיות שכבר קיבלו מענה מרופא אנושי בפורום "שאל את הרופא" של האתר רדיט (Reddit). כך שמלכתחילה ההשוואה נגעה לרופאים בפלטפורמה אינטרנטית ייעוצית, ולא לרופאים בפגישה טיפולית פנים אל פנים עם מטופל. ההקשר הוא משמעותי מאוד, שכן פורומים הם במות פומביות ולא אישיות, שמשאירות מעט מאוד מקום ליחס אישי ולהפגנת אמפתיה.

 

אותן שאלות הוזנו גם ל-ChatGPT. לאחר מכן מסרו לשלושה בודקים את כל השאלות ואת התשובות של הרופא והבוט. ההצגה הייתה עיוורת, כלומר הבודקים לא ידעו איזו תשובה נתן הרופא ואיזו הבוט. כל בודק בחר בכל שאלה את התשובה העדיפה בעיניו מבין השתיים, ודירג מ-1 עד 5 את מידת האמפתיה ואת האיכות של כל תשובה. שלושת הבודקים חתומים כשותפים לכתיבת המאמר, דבר שעלול גם הוא להטות את הממצאים.

 

החוקרים הסיקו שב-79 אחוז מהשאלות תשובת הבוט נמצאה עדיפה על תשובת הרופא. כמו כן ציוני האיכות והאמפתיה של התשובות שנתן הבוט עלו על הציונים שקיבלו תשובות הרופאים. למרות זאת, לכל אורך המאמר לא הוגדר כלל מהי תשובה איכותית. רק בפסקה האחרונה של ניתוח התוצאות הודו הכותבים שהם כלל לא בדקו עד כמה התשובה מדויקת ואם המידע שניתן בה אמיתי או מומצא.

 

מפתחי ChatGPT עצמם מזהירים בהבלטה רבה שמדי פעם הבוט מספק תשובות שנשמעות אמינות, אך למעשה הן שגויות ומגוחכות. המפתחים מציינים כי תיקון הבעיה הזאת מציב בפניהם אתגר משמעותי. פורומים מקצועיים מסוימים, כגון Stack Overflow המיועד למפתחי תוכנה וחומרה, כבר חוסמים תשובות של ChatGPT בטענה שהן אינן מדויקות מספיק. תשובות שיוצרות רושם אמין אך בפועל מכילות תוכן שגוי עלולות להתל בקוראים תמימים ולעודד הפצת מידע כוזב. שירותי חדשות וספקי תוכן מקצועי כמו מאמרים מדעיים כבר מביעים דאגה ניכרת מהמצב הקיים. 

 

ChatGPT הוא בוט שמטרתו לספק תגובה מתאימה בשפה טבעית לפנייה של המשתמש. אחד החידושים המשמעותיים בו הוא שהבוט מסוגל לקחת בחשבון בתשובותיו את כל מהלך ההתכתבות עם המשתמש, ויודע להתאים את עצמו אליו במהלך השיחה. אולם מאגר הידע שעליו הוא מסתמך הוא מוגבל ולא מתעדכן, כך שגם תשובותיו עלולות להיות שגויות.

 

מודלי שפה כמו זה ש-ChatGPT מבוסס עליו נבנים על ידי כך שחושפים אלגוריתם של בינה מלאכותית למאגר עצום של נתונים ומניחים לו לזהות את מכלול הקשרים שמחברים ביניהם. לפעולה הזאת קוראים אימון. גרסה 3.5 של ChatGPT אומנה על טקסטים שפורסמו עד שנת 2021 ולא עודכנה לאחר מכן. כלומר הבוט לא נחשף כלל לחידושים שהצטברו בשנה וחצי האחרונות. בנוסף, כמו כל טכנולוגיה המבוססת על בינה מלאכותית, השימוש בבוט מעורר שאלות מוסריות, למשל מי לוקח אחריות על תשובה שגויה שגרמה נזק למשתמש?

 

מה זאת אמפתיה?

כותבי המאמר אף מציינים שתשובות הבוט דורגו גבוה יותר מתשובות הרופאים ברמת האמפתיה שהם הפגינו כלפי השואלים. כאן יש שתי בעיות עיקריות. ראשית, כמו בנושא איכות התשובה, במאמר לא מצוין איך הגדירו המדרגים מהי בדיוק אמפתיה. בנוסף, כותבי המאמר עצמם מציינים שנמצא קשר בין אורך התשובה לציון האמפתיה שניתן לה. כלומר המדרגים נטו לייחס יחס אוהד יותר למנסחי תשובות ארוכות. מכיוון ש-ChatGPT מייצר תשובות ארוכות יותר בממוצע מאלה של הרופאים, ייתכן שהקשר בין מדד האמפתיה לאורך התשובה מעיד על הטיה לטובת הבוט.

 

ובכל זאת, יש מה ללמוד מהמחקר. אמפתיה היא מרכיב חשוב בתקשורת בין מטופלים לרופאיהם, וייתכן שתשובות מפורטות וארוכות יותר ישפרו את טיב הקשר ביניהם. כשנותנים ייעוץ רפואי, אי אפשר לוותר בשום פנים ואופן על הדרישה לתשובות מדויקות ואמינות, מצד גורם אחראי שמודע להשלכות האפשריות של המלצותיו. ChatGPT בפני עצמו לא עונה לדרישות האלה. עם זאת, בוטים מסוגו יכולים לשרת בעלי מקצוע אחראיים וביקורתיים, שיודעים לסנן מידע שגוי ומטעה. בדומה לכלים אחרים לעריכת טקסט, כמו תיקון אוטומטי של שגיאות כתיב, הוא יכול לשמש כלי עזר שיחסוך למומחים מיומנים זמן ומאמץ במתן מענה מהיר ומפורט.