N12
פרסומת

התקלה ב-Cloudflare: "על פניו, נראה שהיה כאן תהליך שהריץ בן אנוש"

הקריסה שהשביתה השבוע שירותים קריטיים ברחבי העולם לא היתה המקרה הראשון – וכנראה גם לא האחרון. הנזקים הכלכליים של אירועים כאלה הם בעלי פוטנציאל הרסני, ועל אף זאת שוק שירותי הענן נותר ריכוזי ומועד להישנות שלהם. מה קרה הפעם, מדוע ומתי זה יקרה שוב והאם יש פתרון טכנולוגי זמין? | המומחים עונים

דורון אביגד
Business
פורסם:
קלאודפלייר, Cloudflare
קלאודפלייר, Cloudflare | צילום: PhotoGranary02, shutterstock
הקישור הועתק

הקריסה שהשביתה השבוע שירותים קריטיים ברחבי העולם לא היתה המקרה הראשון – וכנראה גם לא האחרון. הנזקים הכלכליים של אירועים כאלה הם בעלי פוטנציאל הרסני, ועל אף זאת שוק שירותי הענן נותר ריכוזי מאוד. מה קרה הפעם, מדוע ומתי זה יקרה שוב והאם יש פתרון טכנולוגי זמין?

אם אתם חובבים תקלות רשת נרחבות, כאלו שמפילות אלפי אתרי אינטרנט ופוגעות בפלטפורמות פופולריות כמו X ו-ChatGPT, חברת תשתיות האינטרנט קלאודפלייר (Cloudflare) היא פשוט מתנה שלא מפסיקה לתת. התקלה השבוע בשירותי החברה, שפגעה אפילו ב-Downdetector, אתר המנטר תקלות טכניות באתרים אחרים, לא הייתה הראשונה של קלאודפלייר - וכנראה גם לא האחרונה. החברה, המשפרת ביצועים ואבטחה למיליוני אתרי אינטרנט ואפליקציות, חוותה תקלה דומה ב-12 בספטמבר השנה - ונפלה גם ב-2019 וב-2022.

גם אם הסיבות לקריסה לא תמיד היו דומות, התוצאה הייתה זהה: קריסה של חלקים נרחבים באינטרנט ותגובות גלובליות קשות של חוסר אמון, חוסר ודאות וחוסר סבלנות מצד בעלי האתרים ומשתמשי הקצה, הגולשים. 

למרבה הצער, אפילו לא לבד: בחודש שעבר נרשמה תקלה חמורה ב- AWS, שירות הענן של אמזון, שגם היא הפילה מספר רב של אתרים. הריכוזיות הזו בלב תשתיות האינטרנט אמורה להדאיג את כולנו. זו אפילו כבר לא קריאת השכמה לכל מי שפועל באינטרנט (כולם פחות או יותר), אלא שעון מעורר על נודניק מעצבן במיוחד שמצלצל את עצמו לדעת אבל גורם לנו, בינתיים, רק לשים שמיכה על הראש, לקלל, להתהפך לצד שני ולהירדם שוב. 

כדי להבין מדוע זה קורה והאם זה צפוי לחזור על עצמו, כינסנו שלושה מומחי תשתיות אינטרנט לפוסט-מורטם של התקלה בקלאודפלייר: מגן מרגלית, סמנכ"ל דיגיטל בקודוואליו, עם עשרות שנות ניסיון בעולמות התשתית של ארגונים פיננסיים, כולל ניהול תחום ההמשכיות העסקית בבנק הפועלים; מיכאל חכימי, CTO ב-IO RIVER, חברה ישראלית המציעה פתרון חכם לבעיות ענן; ורון ליקבורניק, סמנכ״ל טכנולוגיות ומייסד-שותף בחברת דונו (Dono), שפיתחה פלטפורמת AI האוספת, מאנדקסת ומנתחת רישומים נדל"ניים בארה"ב.

השלושה התבקשו לענות על חמש שאלות, בניסיון להבין קצת יותר איפה משאיר אותנו האירוע הלא נעים עם קלאודפלייר.

מה בדיוק קרה?

חכימי, שהגיע ל-IO RIVER מאקאמיי, מסביר כי רוב תעבורת הרשת העולמית עוברת כיום דרך CDN'S - רשתות להגשת תוכן. "הרשתות הללו מאפשרות לנו לדוגמא לקבל תשובה מהירה מ-ChatGPT בלי להגיע בכלל לשרתי החברה, אלא דרך שרת של קלאודפלייר ו-CDN הממוקמים פיזית בתל אביב. התוצאה היא חוויית משתמש הרבה יותר טובה ומהירה, אבל גם תלות בספק במקרה של תקלה. התלות הזו כיום גבוהה מאוד. קלאודפלייר לבדה, לפי הערכות, אחראית על כ-20% מתעבורת האינטרנט העולמית". 

פרסומת

התקלה של AWS בחודש שעבר נבעה מסיבה שונה? 

"נכון. באמזון הייתה תקלה בדאטה סנטר ספציפי ומרכזי בארצות הברית, שהמון לקוחות משתמשים בו. עם זאת, כל התקלות רק ממחישות שיש כאן מצב בו שירותי האינטרנט עוברים דרך מספר קטן של שחקנים מרכזיים, שברגע שאחד מהם נכשל או חווה תקלה - לכולם יש תקלות". 

מיכאל חכימי
"קלאודפלייר לבדה אחראית על כ-20% מתעבורת האינטרנט העולמית". מיכאל חכימי | צילום: עומר הכהן

"CDN זה מונח שנשמע קצת מסובך", אומר מרגלית מקודוואליו, "אבל בגדול קלאודפלייר מפזרת שרתים בכל מיני מקומות בעולם וטוענת לתוכם הרבה עמודים סטטיים קבועים, כך שאם אתה מנסה להיכנס לאתר מסוים הוא נטען הרבה יותר מהר, כי בעצם לא עברת את כל הדרך עד אליו. זה בעצם מנגנון קאשינג ((Caching מתוחכם, שמירה זמנית של מידע בזיכרון מהיר, שמקצר ומשפר את זמני הטעינה של עמודים".

פרסומת

יש ל-CDN יתרונות נוספים?

"כן. המנגנון הזה בעצם מסתיר את כתובות ה-IP והשרתים, כי כאמור המשתמשים לא מגיעים בעצם ישירות אליך לאתר. קלאודפלייר מוסיפה מעטפת נוספת של שירות: הגנה מפני מתקפות וחדירות לנכסים הדיגיטליים ולרשתות הארגונים".

מה קרה בדיוק בתקלה השבוע? 

"זה היה אירוע שני ברצף, שקשור לעולמות של הרשאות בסיסי נתונים פנימיים של ארגונים. ככל הנראה מישהו בקלאודפלייר ניסה לשנות הרשאות, לא הצליח ויצר הגדרות כפולות, הקובץ שמנהל את זה גדל וגדל עד שהמערכת לא הצליחה לתמוך בו וקרסה. גם באירוע של AWS הייתה בעיה בבסיס הנתונים, שמתברר שוב כאחד הרכיבים הכי קריטיים בארגונים. האם בקלאודפלייר זו הייתה תקלה מעשה ידי אדם? עוד אין לנו מידע מדויק, כך שאני רוצה להיות זהיר, אבל על פניו נראה שהיה כאן איזשהו תהליך שהריץ בן אנוש לשינוי הרשאות בבסיס הנתונים".

ליקבורניק מדונו מתאר את מה שקרה בדימויים יצירתיים למדי: "קלאודפלייר, בחלקה הגדול, מתפקדת כשומר חכם בכניסה לאתרים. התפקיד שלה הוא לסנן תנועה ואם היא מזהה שהגולש הוא בן אדם אמיתי ולא מסוכן, היא פותחת לו את הדלת. אם, לעומת זאת, היא מזהה משהו חשוד כמו בוט או תוקף, היא עוצרת אותו. כדי שה'שומרים' האלה יישארו מעודכנים מול איומים חדשים, קלאודפלייר שולחת להם קובץ הוראות שמתעדכן כל כמה דקות".

פרסומת

אז מה השתבש?

"במהלך שינוי שגרתי במסד הנתונים, נוצרה טעות שגרמה למערכת להפיק כמה עותקים של אותו קובץ הוראות. התוצאה הייתה שקובץ ההגדרות הפך לפתע לגדול בהרבה מהרגיל. כשהקובץ הענק הזה הופץ לכל השרתים בעולם, כל 'שומר' ניסה לטעון אותו, אבל יש מגבלה לגודל הקובץ שהמערכת יכולה להכיל. ברגע שהקובץ חצה את המגבלה, המערכת נכנסה למצב של בלבול מוחלט (במונחים טכניים, זה נקרא Panic), ובתגובה חסמה את כל התנועה לחלוטין כמנגנון הגנה. במקום לסנן רק תנועה זדונית, כל השערים נסגרו וגם גולשים רגילים נחסמו לגמרי. לקח למהנדסי קלאודפלייר זמן להבין שהבעיה נמצאת בקובץ ההוראות עצמו, וברגע שהחזירו גרסה תקינה שלו, התנועה חזרה לזרום בהדרגה".

מה הנזק המוערך?

התקלה בקלאודפלייר אולי נראית תמימה למדי לעומת הפיאסקו ב-CrowdStrike ב-2024, שהשבית למשך שעות ארוכות חברות תעופה, שירותי רפואה, גופים פיננסיים וחברות שיפינג, אבל גם הפעם התאדה לו סכום נאה מאוד של כסף, שבעליו יתקשו להחזיר לקופותיהם. 

"ההשבתה נמשכה כשלוש שעות ופגעה ישירות ב-20%, אבל גם חברות שלא משתמשות בקלאודפלייר באופן ישיר נפגעו מהאטות ונפילות של אתרים אחרים", אומר ליקבורניק, "זה אירוע עם השפעה רחבה מאוד. הנזק הכלכלי המצטבר של תקלה בהיקף כזה מוערך במיליארדים, בשל ההשפעה על אתרי מסחר, מערכות תשלומים, שירותים פיננסיים, תקשורת, תעבורה דיגיטלית ועוד".

פרסומת

 

שלומי יוסף
"גם חברות שלא משתמשות בקלאודפלייר באופן ישיר נפגעו". רון ליקבורניק | צילום: שלומי יוסף

"אלפי שירותים נפגעו בתקלה", מעריך גם מרגלית. "עם זאת, קשה מאוד למדוד נזק מדויק, כי זה כולל גם נזק של מכירות שלא יצאו אל הפועל, נזקי מוניטין ונזקי טראפיק. הפגיעה יכולה לנוע מכמה מאות אלפי דולרים לארגון בסדר גודל בינוני עד מיליוני דולרים לארגונים גדולים. ChatGPT של OpenAI כנראה הפסידו מיליונים". 

למה כל כך הרבה ארגונים תלויים בכל כך מעט ספקי תשתיות? 

שלושת המרואיינים מסכימים שזו שאלת מפתח. "זה קורה כי בראייה של המשכיות עסקית, אנחנו כארגונים נוטים לחשוב שהאחריות מוטלת על ספקי השירות בלבד, כלומר, על קלאודפלייר, AWS ודומיהם", אומר מרגלית. "אנחנו רגילים לחשוב שהענן, לא משנה איזה, הוא פלטפורמה מאוד יציבה שלא נופלת אף פעם; וגם ששירותי אבטחה הם פלטפורמה מאוד מאוד שרידה, שיושבת על תשתיות ענן ולא נופלת אף פעם. אבל, זה לא המצב, ממש לא. בסופו של דבר, יש פה אחריות משותפת".

פרסומת

"התופעה הזו קיימת בהרבה תעשיות: מונופולים או אוליגופולים מחזיקים נתח משמעותי מהפתרונות בשוק", מסביר ליקבורניק. "במשך שנים רבות כולנו הנחנו שחברות ענק כאלה לא יכולות ליפול, אבל כשהן כן קורסות, גם אם לזמן קצר, הן מפילות ומשפיעות על כמות עצומה של חברות ושירותים. ראינו את זה קורה לאחרונה אצל גוגל, אמזון ומיקרוסופט, ועכשיו גם קלאודפלייר מצטרפת לרשימה. אחת הסיבות לכך היא אסטרטגיית הצמיחה של החברות האלו: קונסולידציה. הן רוכשות עוד ועוד חברות, נכנסות לעוד תחומים, ומתרחבות בקצב שמייצר תלות אדירה בהן". 

מה הסיכוי שנראה עוד תקלות כאלו? 

"חד משמעית נראה עוד תקלות כאלו ואחרות", אומר מרגלית. "אין מערכות מחשוב שמבטיחות אפס תקלות. המערכות האלו מופעלות על ידי אנשים, ולכן יהיו תקלות גם בהמשך. ההבדל אמור להיות איך איך אנחנו כארגונים נערכים, מתמודדים וממשיכים לספק את השירותים והמוצרים שלנו למרות התקלות".

"תקלות תמיד היו ותמיד יהיו", מסכים ליקבורניק, "רבות מהן פשוט עוברות מתחת לרדאר, עם השפעה מצומצמת. למעשה, כמעט לכל שירות גדול יש אתר סטטוס ואם נכנסים אליו ניתן לראות נפילות רבות לאורך השנה. לפעמים אנחנו רק מרגישים שהמוצר 'מתנהג מוזר' לרגע, וכשאנחנו חוזרים מאוחר יותר הכול שוב תקין. ההבדל המשמעותי הוא מי נפגע, אילו שירותים ובעיקר כמה זמן לוקח לתקן. למשל, בגוגל ראינו תקלה שנמשכה כ־7 שעות; באמזון זה היה כבר במשך דו־ספרתי של שעות. 

פרסומת

"כשמדובר בחברות שמחזיקות חלק משמעותי מהתשתית של האינטרנט - גוגל, אמזון ומיקרוסופט - כל תקלה שלהן הופכת אוטומטית לתקלה של כולנו. ההשפעה כבר מזמן חורגת מהעולם הטכנולוגי: אתרי ממשלה, בנקים, מסופי תשלומים, תחבורה ציבורית, מערכות בריאות, קופות בבתי עסק - כולם תלויים באמצעים דיגיטליים שעוברים דרך אותן תשתיות".

אתה רומז שיכול להיות יותר גרוע? 

"תרחיש יום הדין האמיתי אינו תקלה של כמה שעות, אלא השבתה ממושכת ומשמעותית באחת מהחברות שמחזיקות את התשתית של חיי היום־יום הדיגיטליים שלנו. תרחיש כזה יגרום נזק עצום בכל תחומי החיים: כלכלה, בריאות, ביטחון, פיננסים ותחבורה".

מה ארגונים שנפגעו צריכים לעשות - והאם יש פתרונות לטווח ארוך? 

 IO RIVER של חכימי פיתחה פלטפורמה לניהול כמה CDN's במקביל, כדי למנוע תלות ברשת אחת. דבריו, "חברות ענקיות כמו אמזון, ספוטיפיי ולינדקאין כבר ארגנו לעצמן פתרון שלם לבעיה, כי יש להן משאבים לבנות את זה. אבל, הפתרונות האלה מאוד מאוד יקרים ולא נגישים לרוב החברות לשוק. זה בדיוק מה שהחברה שלנו מנסה לשנות. אנחנו קיימים כבר שלוש שנים, עם מוצר עובד ולקוחות - ורוצים להנגיש לכולם את הפתרון של שימוש בכמה CDN's במקביל ואפשרות לעבור ביניהם במקרה של תקלה". 

פרסומת

נשמע טוב ופשוט. איך אתם לא כורעים תחת נטל ההזמנות? 

"האמת שאנחנו מקבלים המון פניות לאחרונה ועובדים מאוד קשה. התקלות הן טריגר להרבה מאוד חברות לבדוק פתרונות מהסוג שאנחנו מציעים. לא הגיוני שבסוף 2025 העולם ימשיך לשים את כל הביצים בסל אחד או בחברה אחת , שכל נפילה שלה היא נזק עצום לאינטרנט. זה חייב להשתנות". 

"הדבר הראשון שחברות צריכות לעשות במצב כזה הוא להיות שקופות ולשתף את הלקוחות במצב", ממליץ ליקבורניק. "זו סיטואציה קיצונית, גם אם כארגון הצלחנו לטפל בתקלה ולהכניס פתרון זמני עוקף קלאודפלייר, עדיין ייתכן שחלק גדול מהשירותים שאנו משתמשים בהם לא יחזרו לעבוד מיד. לכן, יש סיכוי גבוה שהמוצר שלנו עדיין לא יתפקד, או יעבוד בצורה חלקית, מה שעלול להשפיע על הלקוחות". 

מרגלית מדבר על שינוי בגורמי הנזק: "בעבר ארגונים התכוננו לטיל, שריפה או שיטפון על הדאטה סנטר שלהם, ופשוט הקימו דאטה סנטר נוסף כגיבוי. היום התאוששות מאסון פיזי כבר לא מספיקה, כי עברנו לעולם של התאוששות מאסונות לוגיים. הארגונים תלויים כיום בשירותים שיושבים מחוץ לדאטה סנטרים שלהם". 

פרסומת

אולי הפתרון זה להחזיר את השירותים לתוך הארגון? 

"אני יודע שיש כבר ארגונים שעושים את זה, לאו דווקא רק מסיבות רק של תקלות ותלות חיצונים, אלא גם בגלל רגולציה סותרת בין אירופה לארה"ב, תקלות שבר חיצוניות ושיקולי עלויות. זה כבר קורה". 

 

מגן מרגלית
להחזיר את השירותים לארגון? "יש כבר ארגונים שעושים את זה". מגן מרגלית | צילום: יח"צ

דיברת קודם על אחריות הארגונים – למה התכוונת?

"כל ארגון צריך להחליט מה האיזון הנכון לו: האם אני רוצה להשקיע במוצר תחליפי לקלאודפלייר? האם אני מעדיף לקחת סיכון במקרה של תקלה ולנטרל את קלאודפלייר, אבל לא להשבית את העסק שלי? או, וזו גם החלטה לגיטימית, אני מוכן להסתכן בהשבתת העסק? כל ארגון צריך לעבור את התהליך הזה כחלק מהחשיבה העסקית שלו, כחלק מההמשכיות העסקית".

יש לי תחושה שהרבה מאוד ארגונים עוד לא שם.

"לגמרי לא שם, כי התרגלנו לחשוב שהאחריות היא רק על הספקים. וזה לא הנכון, האחריות משותפת לספקים ולארגונים".

אפשר להניח שארגונים שאצלם זו שאלה של חיים ומוות, כמו חברות התעופה, לא יפילו אחריות על גורם חיצוני.

"לא בדיוק. התקלה שקרתה ל-CrowdStrike בשנה שעבר השפיעה באופן קשה על חברת התעופה דלתא, לקח להם שבועות להתאושש מהאירוע הזה".

מה, דלתא לא מבינה את חשיבות המשכיות עסקית?

"בוודאי שכן, אבל משהו השתנה בטכנולוגיה: עד לא מזמן כל הציוד היה יושב בדאטה סנטר שלך, היום הוא כבר יושב אצל מישהו אחר שאתה חותם אתו על חוזה, מצפה לקבל ממנו שירות ומטיל עליו את כל האחריות. רק עכשיו, אחרי כל התקלות, משהו מתחיל להשתנות בכיוון של אחריות משותפת".