בזמן שאתם עושים שופינג, האדם שהולך מאחוריכם עושה על חשבונכם שופינג משלו; הנחתם את הטלפון על השולחן במסעדה ובאחד השולחנות סביבכם יושב מישהו שגורם לכל הטלפונים של הסועדים להוריד וירוס; והמנעול הביתי החכם שלכם נפתח לשודד שפשוט ביקש ממנו - כל התרחישים האלה אולי נשמעים עתידניים, אבל הם יכולים לקרות כבר היום, והתוקף לא צריך להיות האקר מדופלם כדי לבצע אותם.

חוקרים מאוניברסיטת מחוז צ'וּאֶגִ'יאַנג בסין גילו לאחרונה שיטה קלה וזולה לפרוץ לסמארטפונים, מחשבים, רמקולים חכמים ומכשירים נוספים המבוססים על פקודות קוליות. כל מה שצריך לעשות הוא להקליט את הפקודות הקוליות המבוקשות, להמיר אותן בעזרת תוכנה לתדר גבוה שבני אדם אינם שומעים - ואז לנגן אותן באמצעות רמקול מיוחד שעולה כמה דולרים סמוך למכשיר הקולט פקודות קוליות.

החוקרים ציינו כי הצליחו לפרוץ כך ל-7 מערכות שונות: כל העוזרות הקוליות הנפוצות בסמארטפונים ורמקולים חכמים (סירי של אפל, אסיסטנט של גוגל, קורטאנה של מיקרוסופט, ביקסבי של סמסונג, אלקסה של אמזון) ואף מערכת הניווט במכוניות אאודי.

הפריצה הזו חמורה אף יותר מפריצה קודמת שנמצאה בעוזרות הקוליות בתחילת השנה ואיפשרה להפעיל אותן על ידי פקודות שמוסוות כרעש ומנוגנות מרמקולים רגילים.

מה כבר אפשר לגרום למכשיר לעשות בפקודה קולית? לא מעט: אם זה סמארטפון, אפשר לגרום לו לבצע שיחת טלפון למספר פרימיום (למשל כמו "העוקץ הפלסטיני"), לבצע רכישות דרך אפליקציות או אתרי קניות או סתם להפנות אותו לאתר זדוני שיוריד אליו אפליקציית ריגול במטרה לחשוף את פרטיכם האישיים להאקרים; אם זה רמקול חכם הנמצא בבית שודדים יכולים לשגר לו דרך חלון פתוח פקודה לפתוח להם את הדלת (וכן, גם לבצע רכישות מהאינטרנט); אם זה מחשב אפשר לפקוד עליו להוריד תוכנת ריגול; ואם זו מכונית אפשר לגרום לה להפנות אתכם ליעד אחר מזה שתכננתם.

המעצב הישראלי גדי עמית, העובד בחברת צמידי הכושר FitBit, אמר לאתר Fast Company כי "מתקפת דולפין", שזכתה ממגליה לשם הזה בשל הדימיון לשיטת התקשורת של דולפינים (שאמנם משמיעים גם קולות שאנחנו שומעים, אך גם קולות שאוזן אדם לא מסוגלת לקלוט), מנצלת את הצורה בה עובדים מיקרופונים: הם ממירים תנועות באוויר לאותות חשמליים שמייצגים קול. השיטה הזו לא מאפשרת להגביל אותם לצלילים שאוזן אדם שומעת.

פיתרון אפשרי, לדברי עמית, יכול היה להיות שורה בקוד התוכנות של העוזרות הקוליות, שתבדוק באיזה תדר הגיעה כל פקודה ולא תציית לפקודות שהתדר בו הגיעו אינו תדר דיבור של בני אדם - אך ייתכן שהחברות פשוט אינן מעוניינות בכך. עמית ציין שתי סיבות אפשריות לכך: הצורך לנצל צלילים בתדרים גבוהים כדי לעזור לניתוח הדיבור, ורצון מצד החברות לאפשר למכשירים סמוכים לתקשר ביניהם בלי להזדקק לחיבור אינטרנט על ידי ניצול הסמיכות להעברת פקודות קוליות בתדר שלא יפריע לבני אדם (אבל אולי כן יפריע לכלבים, עטלפים ובעלי חיים נוספים בעלי טווח שמיעה רחב יותר).

לכן, הפיתרון היחיד לפריצה הזו כרגע הוא לוותר חלקית על היכולת להפעיל מכשירים בפקודות קוליות - כלומר, אין צורך להפסיק להשתמש בהן, אבל כדאי לכבות את האפשרות "להעיר" אותן בקול. כך, במקום "היי סירי" או "אוקיי גוגל", תצטרכו אמנם ללחוץ על כפתור כדי להתחיל לדבר למכשיר - אך לפחות תדעו שאף אחד לא יכול לתת לו פקודות בלי לקחת אותו מכם פיזית.