Упавшие сервера: самые необыкновенные истории
Самые частые причины падения серверов и отказа сервисов
1. Проблемы “внешнего мира”.
“Однажды мы бухали в одной большой телекоммуникационной компании. Зимой. На втором этаже. А прямо под нами, на первом, находился узел связи одного большущего банка. Так вот. Побухали, и ушли. Только форточку забыли закрыть. Была зима и минус 40 градусов. Все это было перед праздником 23 февраля. Три дня форточка открыта была, напомню, минус 40. Ну и разморозились батареи к чертям. И залило узел связи этого большущего банка. Так пенсионеры трех регионов получили пенсию на день позже. Бывает”.
2. Начальная школа хакеров.

“Году примерно в 2011 в один из наших серверов хостинга прилетела крупномасштабная по тем временам DDoS-атака. Атакующие, вероятно, были крайне заинтересованы в неработоспособности информационного ресурса одного из наших клиентов, но какого конкретного сайта, выяснить было крайне сложно. Задача атаки сводилась к тому, чтобы полностью забить все наши каналы паразитным трафиком. Да настолько, чтобы полностью парализовать вообще всё, что у нас размещалось. Мы довольно быстро изолировали атакованный сервер и вынесли его внешнюю связность в отдельный канал, чтобы все остальные серверы работали без проблем. На сервере размещалось более тысячи клиентов и почти две тысячи сайтов, и какой именно из них был атакован сетевым флудом неясно. Перебои в работе продолжались больше суток. В 2017 году я смотрю на такие атаки совершенно иначе. Нападений подобного уровня у нас иногда случается по несколько штук в неделю и большинство из них фильтруется автоматикой без вмешательства наших администраторов. Но путь от первой такой атаки и до сегодняшнего состояния занял 6 лет, и до сих пор мы периодически что-то совершенствуем”.
3. Человеческий фактор.

“Давным давно одна компания давала приходящим сотрудникам в свободный доступ компьютеры, поскольку с такой техникой тогда было напряженно. Можно было зайти в интернет ненадолго, договоры поправить, распечатать чего по работе. И стоял у них, как обычный комп - “главный”, это был сервер, с договорами и т.п. А чего пропадать рабочему месту? Кто что сделает без прав админа? Так вот, одной девочке по учебе надо было научиться Linux ставить, ну и пришла она в эту компанию, попросила помочь, говорит: “Можно я у вас потренируюсь?”. Админ ей рукой на компы махнул и сказал: “Ставь, что хочешь, у нас все равно все тачки с сервера зеркалятся, потом оно “бутнется” оттуда и все”. И девочка поставила свой Linux. На сервер! Научилась, что тут скажешь. Сказала, что он самый большой и красивый был”.
“Во время проведения техработ в дата-центре инженер может выключить или перезагрузить не тот сервер или коммутатор, воткнуть провод не туда, системные администраторы выкатят не те обновления и бесконечное множество подобных примеров”.
4. Не железное железо.

В одном банке был сервер с материнской платой “Intel SE7520BD2”, и в один прекрасный летний день в этом сервере вдруг сдохло 8 гигабайт памяти из 32. Инженеры банка, конечно, быстро поменяли память, которая снова сдохла через 3 минуты после запуска сервера. Инженеры снова поменяли память и дохнуть начало уже по 16 гигабайт. Так инженеры спалили 192 гига памяти, после чего решили-таки почитать эти ваши “интернеты” и обратились к поставщику. А все произошло потому, что не прочитали про отзывную кампанию на эти материнские платы, в которых попадались бракованные конденсаторы в контроллере питания памяти”.
5. Температура.

“Купил один заказчик себе дорогущие серверы “IBM Power” под SAP, но куда же их девать? Шумят да греются. Нужен ЦОД! Нашли комнатку 4 квадратных метра, под одну стойку, поставили два кондиционера. Помолились и запустили. Тут на вторые сутки посыпались “алярмы”! Смотрят, железки работают кондиционеры дуют холодом, а “алярмы”, словно по расписанию, раз в 45 минут. В общем - магия! Искали причину - ничего не нашли, так как хозяйство на гарантии. Позвали спецов - та же история! Через месяц стало ясно, что все из-за малой площади помещения. “Power” регулярно скидывал кучу тепла по сработке автоматики, от чего случался перегрев по датчику температуры внешнего воздуха в помещении, в результате чего кондиционеры начинали все неистово охлаждать. Пока охлаждали - “алярмы” сыпались”.
“Значительную помощь в диагностике и прогнозировании проблем составляют системы мониторинга, снятие и отображение различных метрик с компонентов работающих систем, использование тестовых стендов для обкатки вносимых изменений на аналоге работающей системы и тому подобное, а также дублирование ключевых компонентов, использование кластерных решений и так далее”.
“Основной метод борьбы с этим явлением - грамотный выбор инженерных решений при создании ЦОД и квалифицированная эксплуатация оборудования, в т.ч. внедрение систем проактивной диспетчеризации”.
“Нужно читать руководящие документы и стандарты. И следовать им. Понимаю, это трудно, но индустрии "дата-центров" (ранее - мейнфреймов и т.п.) более 50 лет. И очень умные люди уже подумали о том, что и как нужно делать. Наступили на грабли и описали все случаи, которые с ними случались. Главный руководящий документ называется TIA-942. И этот документ, кажется, даже переведен на русский. Если вы никогда не слыхали об этом документе, то никогда, ни при каких обстоятельствах даже не думайте заводить "собственный сервер". Просто отдайте эту функцию профессионалам. Проверить профпригодность можно вопросом: "а что такое TIA-942?".
“Думаю, что пока эту проблему не побороть никак. Современный тренд такой, что от падения серверов защищаются тем, что строят распределённые системы, которые не обращают на это внимания, потому что работают сразу на большом количестве оборудования”.
У Callibri есть телеграм-канал — присоединяйтесь, чтобы не пропустить свежие кейсы, материалы блога и обновления сервисов.
Опубликуйте статью в блоге Callibri
Подойдут материалы про маркетинг, продажи и клиентский сервис