ענקית המחשוב יבמ השתמשה בכמיליון צילומים מתוך אתר שיתוף התמונות פליקר (Flickr) ללא ידיעת המשתמשים, לצורך בניית מסד נתונים שנועד לשיפור טכנולוגיות זיהוי פנים.
תחקיר של חדשות רשת NBC בארה"ב חשף כי מעבדות המחקר של יבמ השתמשו בצילומים שהועלו לפליקר תחת תנאי רשיון "קריאייטיב קומונס" (CC), שככלל קובע סייגים והגבלות חוקיים מועטים על שימוש בצילומים.
אלגוריתמים של מערכות זיהוי פנים של יבמ השתמשו בצילומים במסגרת תהליך לימוד (המכונה "אימון") מתוך מטרה לסייע בפתרון קשיים בזיהוי פנים של נשים ואנשים בעלי עור כהה יחסית.
סיכום ממצאי מחקר "מגוון פנים" (Diversity in Faces) של יבמ פורסם ברשת, ומתאר בפירוט את השיטות לניתוח הפנים של המצולמים, כולל מדידת המרחק בין מאפייני פנים כמו עיניים, אף, פה וקצוות הלסת. "ניתן להעריך באמינות רבות את המדידות של הצילומים על בסיס 47 נקודות ציון בראש ובפנים", כתבו החוקרים.
בחודש ינואר הוציאה יבמ ערכה הכוללת נתונים מקודדים של מיליון הצילומים - בהם גיל המצולם, מרחק בין חלקי פנים, גוון עור, מגדר ומאפיינים נוספים - והעמידה אותה לשימוש חופשי של קהילת המחקר והפיתוח העולמית.
אלא שמאז, לא מעט אנשים הופתעו לגלות את תמונותיהם במאגר, ופעילי זכויות אזרח הביעו חשש כי אותה הטכנולוגיה תשמש בעתיד למעקב ולריגול אחרי האנשים שפניהם שימשו לתהליך הלימוד שלה.
"יבמ משתמשת ב-14 מהצילומים שלי", כתבה היום המייסדת שותפה של פליקר, קטרינה פייק, בציוץ בטוויטר. "יבמ טוענת שאנשים יכולים לבחור לא להשתתף, אבל הופכת את זה לבלתי אפשרי עבורם".
עוד ב-TheMarker
גוגל נותנת הצצה ראשונה לגרסת האנדרואיד הבאה - צפו בחידושים הבולטים
דירוג המכללות הטכנולוגיות בישראל: איפה כדאי ללמוד - והיכן פחות
"אף אחד מהאנשים שצילמתי לא העלה על דעתו שיעשו שימוש כזה בתמונות", אמר גרג פווריל-קונטי, שיבמ השתמשה ב-700 מצילומיו, ל-NBC. "זה נראה קצת מפוקפק שיבמ יכולה להשתמש בצילומים הללו מבלי לומר דבר לאיש".
רק מוסדות אקדמאים וגופי מחקר תאגידיים רשאים לבקש גישה למאגר הנתונים המקודדים של יבמ, והחברה מסרה בתגובה ל-NBC כי תסייע לכל אחד שמעוניין שתמונותיו יוסרו מהערכה.
אלא שבפועל אין למשתמשים כמעט אפשרות למנוע שימוש בצילומים שלהם. כדי לבקש הסרה של תמונה, הצלמים נדרשים לשלוח אי-מייל ליבמ עם קישורים לכל אחד מהצילומים שהם רוצים שיוסרו. אולם היות שתוכן המאגר אינו זמין לציבור הרחב, קשה מאוד לצלמים לדעת מלכתחילה אלו מתמונותיהם נכללו בערכה של יבמ.
יתר על כן, מומחים ציינו כי ספק אם יבמ היא היחידה שמשתמשת בצילומים ללא אישור המשתמשים. חוקרי בינה מלאכותית שמובילים תהליכי הלימוד של מערכות זיהוי פנים, נוהגים להתבסס על ערכת המידע YFCC-100M של יאהו, מאגר של כ-100 מיליון צילומים ברשיון CC, שממנו גם יבמ לקחה את הצילומים.
מה גם שכמויות התוכן העצומות שמעלים כיום משתמשים לרשתות חברתיות כמו פייסבוק או אתרי שיתוף תוכן כמו יו-טיוב, מקלים מאוד על חוקרים להשיג נתונים למחקריהם.
"זה הסוד הקטן והמלוכלך של ערכות לאימון בינה מלאכותית", אמר פרופ' ג'ייסון שולץ מבית הספר למשפטים באוניברסיטת ניו יורק ל-NBC. "לעיתים קרובות חוקרים פשוט לוקחים צילומים שזמינים בחוץ".