Візок, витаючи пара, три сувої: як я перевозив сервер з нульовим даунтаймом

Найгірше, що я робив за все своє життя.


Один з моїх клієнтів купив нове офісне приміщення в тому ж бізнес-комплексі і захотів, щоб його сервер віртуального хостингу (7 віртуальних машин Windows) перемістили в нову «серверну». Спочатку я подумав: "Чудово! Швидко керуюся. Просто відключу все, зніму, пронумерую, впакую накопичувачі, перетягну, а потім зберу, як було. Займе максимум пару годин ".

(Вчора)

Ні-а... Я почав викладати свій план власнику, і він перервав мене на першому ж кроці:

Власник: Стривайте, не можна нічого відключати. Наші клієнти заходять на сервер весь день.

Я: Ви не повідомили їм про планове техобслуговування, як ми домовлялися в п'ятницю?

В: Ні, у нас не може бути ніякого даунтайму.

Я: Доведеться потерпіти даунтайм.

В: Якщо він буде, я вам не заплачу.

Я: Гаразд, є інший спосіб, але потрібно приблизно 5 хвилин даунтайму. Ми можемо підняти новий віртуальний хост в новому місці і провести міграцію через тимчасовий VPN.

В: Ні за що! Ніякого даунтайму!

Я: Гаразд, до побачення.

Через кілька годин мені подзвонив друг і сказав: "У мене клієнт, якому потрібно перевезти сервер. Він сказав, що його ІТ займаєшся ти, але цього разу відмовився? "

Я розповів йому історію і ми домовилися про план, який дозволить перевезти сервер і добре заробити нам обом.

(Сьогодні)

Ми зустрілися з другом в офісі і приступили до роботи. Від шафи до нової «серверної» приблизно 215 метрів, тому ми взяли 3 бухти кабелю cat6 і 3 комутатори. Ми підключили комутатори у своїх вантажівках на парковці і з'єднали їх кабелем cat6.

Після необхідних оновлень DNS для зовнішніх сервісів і успішного налаштування нового фаєрвола налаштували дві мережеві плати на сервері на випадок аварійного перемикання і підключили кабель cat6 з парковки. Відключивши кабель сервера і трохи потестувавши з'єднання, ми переконалися, що даунтайму немає.

Потім ми відключили один з двох блоків живлення і підключили його до монтованих в стійку UPS, які знаходилися на візку. Знову ніякого даунтайму.

Потім ми відключили ще один блок живлення і дуже акуратно поставили працюючий сервер на візок. Підключили другий блок живлення в другій UPS, теж стояв на візку.

Далі почалося найцікавіше. Знадобилося трохи більше двох годин на акуратне перевезення сервера в новий офісний простір. Дорогою ми змінювали налаштування аварійного перемикання мережевих карт на кожному комутаторі.

У новому офісі ми успішно знову все зібрали. Протестували і переконалися, що даунтайм нульовий.

Друг виставив клієнту рахунок за 4,5 години роботи, 2 години консультування і 4,5 години допомоги консультанта (мою).

Запитання і відповіді

В: Ви ж відмовитеся від цього клієнта?

О: Це вже точно! Як тільки мені заплатять, я розірву договір. Або, можливо, коли мені заплатять за заміну HDD на нові 2-терабайтні Seagate по 400 доларів...

В: Чому ви не використовували vMotion або Live Migrations?

О: Це був сервер Hyper-V з 2012r2. І я, і мій друг мали справу з Hyper-V починаючи з 2003 року, і безліч разів робили спроби Live Migrations. Вперше у мене вийшло реалізувати Live Migration без даунтайму в 2019 році. Оскільки ми не могли в здоровому глузді гарантувати такий абсурдний аптайм, то відмовилися від цієї ідеї. Однак я все-таки спробую тепер Live Migrations у своїй домашній лабораторії.

В: Чому б не прокласти через всю парковку дуже довгий оптоволоконний кабель?

О: Найдовше оптоволокно, яке у нас було, мало довжину всього близько 45 метрів. Ми працювали з тим, що є.

В: Як щодо AirFiber або зовнішніх точок доступу?

О: Ні того, ні іншого у нас не було.

В: Який рахунок ви виставили?

О: Загальна сума склала трохи менше 17 тисяч доларів. Ми взяли 5 тисяч авансом і поставили свій потроєний погодинний цінник.

В: RAID складався з SSD?

О: Ні... Поки чекаю завершення сканування дисків, щоб оцінити можливий збиток.

В: Чи були якісь збої системи?

О: Поки ні.

В: Це була якась халтура? Якщо так, то навіщо братися за такий головняк?

О: Так. Однак мені залишилося знайти всього 3-4 постійних клієнта, щоб зробити свою повсякденну роботу підробітком. Тому, хоча я спочатку відмовився від цієї роботи, пізніше вирішив допомогти другові, тому що обидва намагаємося перейти на такий режим.

В: Хто-небудь отримував доступ до сервера під час його переміщення?

О: Так, судячи з логів веб-сервера, доступ отримувало приблизно 2200 унікальних IP-адрес приблизно з 30000 запитів. Три співробітники, які працювали в той час (незважаючи на те, що ми рекомендували цього не робити), сказали, що у кожного було відкрито з файлового сервера від 5 до 8 файлів.

В: Що якби все пішло шкереберть?

О: Залишили б перекинений візок на парковці і пішли додому... А якщо серйозно, то ми перевірили, що резервні копії зроблені і готові до заміни за лічені хвилини. Якби це сталося, ми б впоралися. Під час перенесення сервера ми витратили багато часу на обмірковування.

В: Чому б не взяти тимчасовий сервер і не виконати міграцію між двома машинами?

О: З минулого досвіду немає гарантій відсутності даунтайму.

В: Чому сервер потрібно було перевозити зараз?

О: Закінчувався термін оренди в іншій будівлі і «через незалежні від неї обставини» клієнту потрібно було переїжджати вчора.

COM_SPPAGEBUILDER_NO_ITEMS_FOUND