כמה מילים על מרכז התפעול ומרכז המחשבים של הכנס

3 בדצמבר 2010

3 תגובות

כולם מסתובבים בטק אד כאילו תמיד הכל היה שם מוכן בשבילם תמיד. רוב המשתתפים לא מודעים בכלל לכמות עבודת הארגון והמטה שמסתתרים מאחורי ארוע בסדר גודל כזה. כשחלפתי לתומי בלובי של ההרודס, נתקלתי בשלט עם חץ לכיוון מרכז התפעול, ואמרתי לעצמי, למה לא, והלכתי עם החץ. באיזה שהוא שלב נתקלתי בקבוצת שומרים עם פנים קשוחות ומבט חשדני, שעמדו לפני דלת שרשום עליה הכניסה למורשים בלבד. ביצעתי את תרגיל עקיפה מספר 17 ונכנסתי. בפנים פגשתי כמה מכרים, ומה שיותר חשוב את רן לנדסברג, ושאלתי אותו אם הוא יכול להראות לי את המפלצת.

 TechEs_Il 031

למי שלא יודע על מה אני מדבר, אז השנה מיקרוסופט הקימה בטק אד ענן פרטי כולל תשתית התקשורת. מדובר בקוי תקשורת סימטריים מהירים 260 מגה מהמרכז לשמונה מלונות שלא לדבר על הנמל והקישור לכל אולמות ההרצאות. מרכז מיחשוב עם 33 שרתים, שהכילו ביחד 1.2 טרה זכרון (כן זכרון Ram לא דיסק) פלוס עוד איזה 40 טרה שטח דיסק, עם עמידות ושרידות מלאה. המפלצת הזו הריצה מעל 200 מכונות וירטואליות, עבור כל התשתיות ועבור כל ההדגמות של כל ההרצאות. ואני לא מדבר בכלל, על תשתית התקשורת האלחוטית, שמכסה שטח גיאוגרפי ענק.

אז רן הכניס אותי לאולם שבו נמצא מערך השרתים הענק שמשרת את כל הארוע. אולם גדול, מרשים, רחב, וריק !!!!.

TechEd_Il 114

שתי הצנורות הגדולים שאתם רואים למטה, זה לא ביוב אלא מיזוג האויר ממזגנים חיצוניים (כן, זה קצת מצחיק). והארון הקטן שאתם רואים במרכז, זה כל מרכז המחשבים. כן, כל ה 33 שרתים, עם הדיסקים שלהם, כן, כל ה 40 טרה. אני מניח שכל מי שעוסק בתשתיות ותפעול של מרכזי מחשבים מודרניים, כבר רגיל לזה, אבל רוב המפתחים שאני מכיר די מופתעים לראות כמה זה קטן.

TechEd_Il 113

בואו ונציץ בחיה הזו קצת יותר מקרוב. למעשה מבחינת הגודל של הארון, היה ניתן לדחוף שם קרוב לשמונים שרתים, אבל מאחר והיו רק 33 שרתים, אז בשאר המקום דחפו את הדיסקים, וכפי שאתם רואים עוד נשארו 7U פנויים למעלה.

סתם כדי לארגן את הראש. כל שרת יכול להכיל לצורך העניין שני יע"מ-ים, שכל אחד מהם יכול להכיל שש ליבות, כך שארון כזה יכול להכיל כוח מיחשוב של 500 ליבות (ועוד לא אמרנו דבר על Hiper Threading שבעצם מכפיל את זה מעשית ב 1.3 בערך). המחיר לא בשמיים, אתה יכול היום להשיג יחידה 2U שכוללת ארבעה לוחות אם עם שני יע"מ-ים כל אחד (דהינו 48 ליבות) בפחות מ 20,000 דולר. הגרף היורד של מחיר ביחס לכמות ליבות זה אחת מהסיבות שאני קופץ בשבוע הבא לרדמונד, על מנת להשתתף בקורס לפיתוח עבור HPC.

למי שתוהה כמה כבלים צריך כדי לחבר 33 שרתים חזקים עם הדיסקים שלהם ביחד, אז ככה זה נראה מאחורה. סך הכל פרט לחשמל, יוצאים מהארון הזה שני כבלים לריכוז האינטרנט האזורי של אילת, וכבל אחד לארון הקטן שיושב בפינה שרובו ריק.

TechEd_Il 115TechEd_Il 117

דרך אגב, הארון הקטן, זה שעומד בשקט בפינה מבוייש, הוא מפלצת קטנה בפני עצמה, והוא זה שאחראי על התמסורת בין מרכז המחשבים, לבין שמונה בתי המלון שהשתתפו בכנס (ועד נחזור אליו בהמשך).

מי שרוצה לראות את מסמכי התעוד המפורטים (עם מסמכי התכנון המפורט) של כל הקומפלקס התקשורתי הזה, אז הנה הם בשחור על גבי אדום על גבי אפור.

TechEd_Il 116

אני הרבה פעמים שואל את הסטודנטים שלי בקורסי ה Production Debugging שלי כמה מסכים יש בחדר שרתים שיש בו 100 מחשבים. הרבה מדברים איתי על KVM – ים וזורקים מספרים שונים ומשונים. האמת היא שבדרך כלל אין שם אף מסך, וגם לא KVM, אלא הכל מנוהל תוך שימוש ב RDC ממחשבים מרוחקים. אז כשיצאתי מחדר המחשבים הענק, הלכתי להציץ קצת על מערך הניהול. קטע ניהול השרתים היה לי מוכר אז התרכזתי בעיקר בקטע של התמסורת והתקשורת. פגשתי שם בחור נחמד מבזק, שהראה לי את מסך הבקרה של כל מערכות התקשורת של הארוע.

TechEd_Il 119TechEd_Il 118

תשתית הניטור והבקרה של מערכות, הינה אולי הדבר החשוב ביותר שקיים בתפעול המערכות השוטף, וזה נושא שלא מוכר בכלל למפתחים. אני תמיד מסביר למפתחים, שהם יפתחו את הפרויקט שלהם שנתיים, אבל הוא ימשיל לחיות במחלקת התשתיות והתפעול עוד הרבה שנים אחרי שהם ימסרו אותו ללקוח (המספר המקובל הוא שבע שנים). מה שמוליך תמיד לשאלה, מה עשית בזמן תכנון ופיתוח המוצר, על מנת לעשות את החיים של אנשי התשתיות קלים יותר, גם באופן כללי וגם במקרה של תקלה. אני שם את כל הנושא הזה תחת הכותרת של Instrumentation. נורא קשה לי לדחוף את הנושא הזה בארגונים, בגלל חוסר שיתוף הפעולה המסורתי בין מחלקות הפיתוח למחלקות התפעול.

מאחר ומערכת הניתור והבקרה שהותקנה בארוע, הופעלה עם כל היכולות של שימור לוג היסטורי, ביקשתי לחזור אחורה בזמו לאותה דקה שבה גילה נועם קינג שהוא לא מסוגל להתחבר לData Center. תוך שניות היינו בתוך הלוגים של הארוע בנקודת הזמן שהוא קרה.

אז נועם, אני לא יודע אם זה כל כך משנה לך, אבל מישהו במלון הילטון, בעט בטעות בכבל, שמחבר את הארון הקטן והמבוייש בפינה של חדר השרתים, אל המקבילה שלו במלון הילטון. השם המקצועי למי שעושה את זה הוא Cable monkey. התוצאה, ניתוק מיידי של ה Data Center מהרשת הפיזית (והאלחוטית) של מלון הילטון. מבחינת המשתמש הסופי, שמחובר לרשת הפיזית (אני מדבר עליך נועם) הכל נראה עובד, כל הרשתות מתפקדות, כל האורות ירוקים, ה WiFi עובד, רק דבר אחד אין, קשר ל Data Center. ישמח אותך בוודא לדעת שהתקלה אובחנה ברגע שהיא קרתה, היא הפעילה אזעקה. לקח לאיש תחזוקת הרשת שלוש דקות להגיע לארון המדובר בהילטון, עוד כמה דקות כדי לגלות מה בדיוק קרה שם, לאתר את התקלה ולחבר את הכבל מחדש. החיבור ל Data Center התחדש כדקה אחרי זה. לך זה כבר לא שינה דבר, כי שראית שלא עובד דרך הפיזי, עברתה ל WiFi וכשזה לא הצליח התחברת דרך הרשת הסלולרית, שלמזלך שנכנסה לרשת התקשורת של ה Data Center מנקודתחיבור אחרת, וכך הצלחת לסיים את הדמו (קצת חיוור ומזיע) בהצלחה מלאה.

כמה נקודות מענינות מהתחקור של הארוע כפי שהוצג כאן. קודם כל זו דוגמא יפה למערכת שיש בה Instrumentation מובנה. אין כמעט מערכת חמרה שאין לה את היכולות האלה. רק בתחום התכנה מדלגים על זה. וחשוב לציין שניתן להוסיף את היכולות הללו בכל יישום שנכתב לסביבת Enterprise, בתקורה ממש זניחה לתהליך הפיתוח. בנוסף הארוע הזה הוא גם דוגמא יפה לזה ש Instrumentation מקטין את ה Down Time של מערכת נופלת, כי אתה יודע מהר מאד מה קרה, מה שנותן הצדקה תקציבית מלאה, לתקורה הזניחה של הוספת הדברים האלה בזמן הפיתוח.  תוסיף לזה שהיכולת לדעת בזמן אמת שיש בעיה, ולא רק אחרי שהמשתמש מצלצל להתלונן, היא דבר שבר חינם, ברגע שאתה בונה את תשתית ה Instrumentation במוצר. וכפי שיודע כל מי שישב פעם ב Help Desk, יש הבדל עצום, בין לקבל טלפון מלקוח שאתה כבר יודע מה הבעיה שלו, לבין לקבל טלפון מלקוח, שאין לך מושג ירוק מה קרה אצלו. אבל אני סתם מקטר לכם, לך תשכנע את הלקוח לדרוש את זה מהמוצר המפותח וגם לשלם על זה בטיעון האבסורדי שזה יחסוך לו כסף בעתיד, זה חסר סיכוי.

הוסף תגובה
facebook linkedin twitter email

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

3 תגובות

  1. מעריצים 5 בדצמבר 2010 ב 13:47

    אין עליך , פשוט אין !

    הגב
  2. עודד5 בדצמבר 2010 ב 18:09

    חבל שלא הזכרת שכל העבודה והציוד שעליהם התבסס הכנס היו של חברת HP …

    יוסי אליאני וצוות ה-Professional Services של HP תקתק אחלה תשתית ועבודת הקמה ותפעול לעילא ולעילא.

    עודד

    הגב
  3. אלון כ.5 בדצמבר 2010 ב 22:17

    מאיר היקר

    שמעתי ממך את הפוסט בדרך למסיבה ביום השני , נחמד להצמיד תמונות הממחישות את סיפורך המגולל היטב .  

    מקווה שההרצאה הלכה טוב !

    נשתמע ,

    אלון – שותפך הבלאגניסט לחדר בכנס

    אילת 2010

    הגב