השירות החדש של לינגנו, ועלילות השרת בעיר הגדולה

עדכון: חלק מהעומס טיפה ירד. מספיק כדי לכתוב מסיפורי התקופה האחרונה.

קנינו שרת חדש. מטרת השרת היא לספק שירות לעסקים קטנים – גיבויים מרחוק.

הרעיון הוא פשוט. במקום לקנות טייפ גיבוי, קלטות גיבוי, לזכור להחליף קלטת כל יום, לזכור לבדוק שהקלטת אכן נכתבה כמו שצריך, ולזכור להחזיק את הקלטות במקום בטוח מחוץ למשרד, קונים שירות. בעברית – קונים שקט נפשי תמורת קצת כסף (לא הרבה, דרך אגב, אבל אני, כמובן, משוחד).

קצת הסבר על מה זה גיבוי (אני יודע, כולם חושבים שהם יודעים).
אספקט אחד של גיבוי זה משהו שכולנו מבינים – אם יש תקלה כלשהי, שיהיה איך להגיע למידע. זה אספקט חשוב, אבל גיבוי זו לא הדרך היחידה, או אפילו הכי טובה, להגיע אליו. למשל, raid נותן אף הוא הגנה מפני תקלת חומרה, ובמובנים מסויימים אף עובד יותר טוב.

גיבוי נועד להגן על דברים נוספים. להלן כמה אירועים שעלולים לקרות לעסק. גיבוי שמבוצע נכון מגן מפני כולם:
1. נכנס וירוס ומוחק את כל הדיסקים.
2. יש פריצה לעסק, וגונבים את המחשבים.
3. שריפה בבניין גורמת לנזקים לציוד
4. עובד ממורמר, או שעל סף עזיבה, מחבל בנתונים על המחשבים.
5. אי תשומת לב של רגע גורמת לנזק לנתונים. למשל – לא שמתם לב ומחקתם קובץ חשוב.

כדי להגן מפני 1, יש צורך שיהיה העתק נוסף על המידע, לא על הדיסקים שאיתם עובדים. כדי להגן מפני 2 ומפני 3, חשוב שההעתק הנוסף יהיה במקום שהינו פיזית שונה. 4 הוא מסובך במיוחד, מכיוון שיכול להיות שהנזקים שעשו בכוונה היו קטנים אך מכאיבים. כדי להגן מפני זה חשוב לשמור על העתקים ישנים של הגיבויים, כדי שיהיה מקור להשוואה.

הבעיה עם כל הנ”ל אינה שאי אפשר להתמודד איתם. אפשר, והדרכים לעשות את זה הן אפילו דיי ידועות ומקובלות. הבעיה עם הנ”ל היא שכדי להמודד עם האיומים כמו שצריך, צריך המון המון תשומת לב קבועה. הסיבה שגיבויים לא קורים כמו שצריך הינה שהגורם האנושי בד”כ מכשיל אותם.

לינגנו, מצידה, עושה את הדברים הבאים כדי להבטיח שהמידע שלכם יישאר בטוח:
1. כל המידע מוצפן טרם עזיבתו את החברה. כמו שכבר עדכנתי פה – בשביל זה יש את rsyncrypto, שכבר נמצא בגרסת 0.04. פירושו של דבר זה שלנו אין שום דרך לדעת מה המידע שאחנו שומרים כל כך בקנאות שישאר תקין.
2. כל התהליך הינו אוטומטי. הלקוחות לא צריכים לזכור לעשות משהו. הגיבוי, כולל שמירת גרסאות ישנות ושמירת העתק מחוץ למשרד, פשוט קורה.
3. המידע מועבר לשרת שיושב אצל ספק שירות. ניתן לבקש לשמור גרסאות ישנות של המידע על פי קריטריונים ידועים מראש. ניתן להכתיב בצורה קלה ופשוטה מה יגובה.
4. השרת כמובן מגובה בכל האמצעים הסטנדרטיים לשמירה על הנתונים (raid, אבטחת מידע וכו). כחברה, אבל, אנחנו לא מסתפקים בזה.
5. כל המידע על השרת מועתק על בסיס יומי לשרת שני, שיושב במשרדי לינגנו.
6. כל המידע נשמר על קלטות, ואילו נשמרות בכספת בבנק.

במילים אחרות, כדי שלא ניתן יהיה לשחזר את המידע שלכם, צריכות לקרוא הפעולות הבאות:
1. מישהו צריך לפרוץ לבנק ולגנוב את תכולת הכספת
2. לפני שהספקנו לשחזר את המידע אצל הבנק, קרתה במשרדי חברת לינגנו שריפה שהשמידה את המחשבים אצלינו.
3. לפני שהספקנו לגבות את המידע בשנית מהשרת הראשי, מישהו לקח פטיש והשמיד את כל הדיסקים שם, אצל ספק האינטרנט.
4. לפני שהספקנו להחליף את הדיסקים, פגע בכם וירוס שהשמיד את המידע.

במילים אחרות, בעלות שלעניות דעתי המשוחדת הינה מאוד סבירה, אתם מגינים על עצמיכם מפני כל שלושה כשלים שעלולים לקרות. אם אתם שומעים על מישהו שמעוניין, אני כמובן אשמח אם תעבירו לו את כתובתינו…

עכשיו לסיפורי השרת. כפי שבוודאי הבנתם, צריך שרת שיחזיק את כל הסיפור. אחרי מחקר שוק מסויים, התמקדתי על IBM xSeries 346, בעיקר בגלל המקום שיש בו לדיסקים (קריא – הרחבות עתידיות). קיבלתי הצעת מחיר, והתחלתי לבדוק את החומרה לתאימות ללינוקס. היו כמה תלונות על התקנה מעט קשה, בגלל שההתקנה של Debian לא מזהה את הדיסקים, אבל אחרי התקנה הכל בסדר. מתוך ההנחה שעל בעיות התקנה אני אצליח להתגבר, ביצעתי את ההזמנה.

אחרי שביצעתי אותה, מתקשר אלי איש המכירות ואומר שהוא בטעות הכליל בהצעת המחיר בקר raid משוכלל מזה שהשרת מגיע איתו. הוא מוכן לתת לי את הבקר המשוכלל בחצי ממחיר העלות שלו, אבל הרגיל מגיע עם תמיכה ב-raid-1, שזה כל מה שאני צריך כרגע, אז אני אומר לו “עזוב”.

המשוכלל – ServeRaid-7k
הפשוט – HostRaid

וכאן החטא הקדמון. אף אחד מאיתנו לא שם לב לכך שבעצם את כל הבדיקות עשינו על הבקר שמצויין בהצעת המחיר, לא על הבקר שהגיע בפועל.

עיצה ידידותית:

אל תקנו חומרה mission critical שדורשת driver קנייני


באמת.
פשוט תגידו “לא תודה”.

אחרי יומיים של נסיונות נואשים להתקין את המחשב, הבנתי מה הבעיה. ה-driver שחשבתי בהתחלה שצריך, ips, הינו דרייבר חופשי שנמצא כחלק אינטגרלי מהליבה של לינוקס. הוא לא זיהה את בקר ה-raid. אפילו נכנסתי לקוד המקור של הקרנל, וחיפשתי אותו. לא הבנתי למה הוא לא מזהה. הרי כתוב בקוד המקור במפורש: ServeRaid-7k. מה לא ברור?

תשובה – זה הרי לא ServeRaid-7k. זה HostRaid. אחרי יומיים של נסיונות כושלים, כשסוף סוף ירד לי האסימון על הנקודה הזו, התחלתי לחפש במקום הנכון. מסתבר שיש דרייבר גם לבקר הזה, אלא ש:
1. הוא קנייני לחלוטין. אין לו קוד מקור בכלל.
2. הוא מקומפל מראש רק עבור קרנלים דיי ישנים של RedHat ושל Suse.
3. אפשר להוריד אותו מהאתר של Adaptec, שם הוא מופיע תחת הכינוי “minimally tested”… אימרו לי ילדים. אם אתם לקוחותי, ואני מספר לכם בגאווה על המערכת החזקה שקניתי, עד כמה היא עמידה לתקלות, ועד כמה היא רצה נפלא על הדרייבר שנבדק בצורה מינימלית ע”י adaptec, עד כמה אתם תשמחו לקנות ממני את השירות?

למי שמעוניין להסתכל בעצמו, הדרייבר נקרא “a320raid“.

בקיצור, קנינו את התוספת של ה-ServeRaid-7k, ובא לציון גואל. הכל עובד נפלא. ואתם, ילדים, זכרו את המסר הבא. הסתמכות על דרייברים קניניים פירושה שמישהו חיצוני מכתיב לכם איזו מערכת הפעלה לשים, איזו גרסה, מתי לשדרג, ואיך להתייחס לעדכוני אבטחת מידע. ראו הוזהרתם.

שחר

Bear