Спецпроекты

Алексей Малышев, «Сонет»: Отказоустойчивость ЦОД жизненно важна для бизнеса

Интеграция Внедрения Инфраструктура

Дата-центр является технологическим фундаментом для современной компании, опирающейся на информационные системы и цифровые сервисы. Поэтому для поддержания бизнеса становится жизненно важной непрерывность работы ЦОД в любых условиях. О том, как решить эту задачу и построить отказоустойчивую инфраструктуру на основе решений HPE, в интервью CNews рассказал Алексей Малышев, генеральный директор компании «Сонет».

CNews: Меняется ли отношение бизнеса к вопросам отказоустойчивости?

Алексей Малышев: Да, в последнее время бизнес стал гораздо больше внимания уделять таким характеристикам ЦОД, как отказоустойчивость и ее частному случаю — катастрофоустойчивости. Растет понимание, что инженерные системы дата-центров должны сохранять работоспособность после отказа одного или нескольких компонентов. А также того, что необходимо обеспечить возможность восстановления инфраструктуры после масштабных чрезвычайных ситуаций: катастроф, природных катаклизмов или террористических актов.

Раньше об этом задумывались только крупные компании, но сейчас вопрос обеспечения отказоустойчивости стал актуален и для малого бизнеса. Это объяснимо: первые надежно зарезервировали свои системы еще до наступления пандемии, а средний и малый бизнес остро осознал необходимость обеспечить непрерывность в 2020 г. Цифровизация, развитие онлайн-сервисов, непрекращающаяся коммуникация с потребителями в интернете, подразумевающая молниеносные ответы на их запросы — это те факторы, которые несколько лет назад уже определяли конкурентоспособность компаний, но в условиях пандемии их важность выросла на порядок. Пользователи должны иметь доступ к информационным ресурсам, корпоративной почте и онлайн-транзакциям круглосуточно. В результате увеличился спрос на облачные услуги и сервисы, связанные с видеоконференциями, удаленным доступом, дистанционным образованием. Нагрузка на облачные платформы и дата-центры заметно увеличилась. Соответственно, растет и ценность данных.

Алексей Малышев: В последнее время бизнес стал гораздо больше внимания уделять катастрофоустойчивости ЦОД

Пандемия показала, что в новых обстоятельствах непрерывность бизнеса обеспечивает его выживаемость, а ошибка в работе сервисов или отказ ИТ-инфраструктуры могут иметь фатальные последствия. Внезапный простой ИТ-систем или потеря данных обходятся слишком дорого.

При этом самая продуманная инфраструктура существует не в вакууме, слишком много внешних обстоятельств могут привести к отказу оборудования. Даже дата-центры уровня Tier III не защищены от форс-мажоров. Причинами серьезных аварий становятся пожары, стихийные бедствия, перепады напряжения в электросети, человеческие ошибки, случаются и курьезные истории, например, с участием диких зверей. Если аварии неизбежны, значит, надо искать решения, минимизирующие потери после инцидентов. Именно поэтому многие компании вкладываются в катастрофоустойчивые решения для корпоративных дата-центров.

CNews: Какие способы повышения катастрофоустойчивости практикуются на российском рынке?

Алексей Малышев: Архитектура катастрофоустойчивого решения зависит от масштаба компании, ее бюджета на ИТ, требований к уровню отказоустойчивости и работоспособности сервисов в критических ситуациях. Также нужно учитывать требования законодательных актов государственных регуляторов хозяйственной деятельности. Исходя из этого, клиент может исполнить проект, используя репликацию данных, может построить метрокластер, то есть кластер, разнесенный на несколько площадок в пределах города или района, он может создать систему на базе классического решения, объединяющего СХД и серверы, а может построить гиперконвергентную инфраструктуру (если нужна «абсолютная» непрерывность работы инфраструктуры). Для обеспечения сохранности данных внедряются системы резервного копирования и восстановления.

Крупный бизнес часто позволяет себе дорогие решения на базе гиперконвергентной архитектуры и географически распределенного кластера. Средний и малый бизнес, напротив, предпочитает более дешевые решения в рамках стандартного кластера на одной площадке.

CNews: В какую сумму обходится простой дата-центра?

Алексей Малышев: Самый точный и безошибочный ответ на этот вопрос: «дорого» и даже «очень дорого». Помню, как в 2011 г. я увидел цифры из отчета Ponemon Institute, которые до сих пор стоят перед глазами. В среднем потери на предприятиях США составляли $5,6 тыс. при простое дата-центра больше 1 минуты. К 2013 г. средняя цена нерабочей минуты увеличилась на 41% до $7,9 тыс. Этот показатель растет ежегодно. Структура потерь наполовину состоит из прямых убытков от простоя ЦОД, вторая половина — это репутационные риски, упущенная выгода, штрафные санкции поставщиков и покупателей.

CNews: Недавно компания «Сонет» реализовала проект по обеспечению отказоустойчивости инфраструктуры торговой компании, входящей в мировой топ-100 в своем сегменте. Как была устроена ИТ-инфраструктура этой организации ранее?

Алексей Малышев: На момент объявления конкурса заказчик размещал свое оборудование в нескольких дата-центрах. Большая часть бизнес-приложений размещалась в основном ЦОД, состоявшем из нескольких серверов, подключенных к системе хранения данных 3PAR в режиме отказоустойчивого кластера. В целом это было хорошее работоспособное решение, но руководство компании задумалось о повышении ее отказоустойчивости.

Алексей Малышев: Архитектура катастрофоустойчивого решения зависит от масштаба компании и ее бюджета на ИТ

CNews: Какой план предложили специалисты «Сонет» и как его осуществили?

Алексей Малышев: Наиболее перспективным решением мы сочли создание катастрофоустойчивой системы, которая будет способна работать при отказе одного из ЦОД. В рамках проекта специалисты «Сонет» установили вторую СХД HPE 3PAR и настроили технологию Peer Persistence. Серверы из основного ЦОД были подключены к новой СХД 3PAR на второй площадке. В результате заказчик получил несколько распределенных кластеров. Такая технология позволяет построить отказоустойчивое решение в среде VMware, а при отказе одного из массивов производит автоматическое и прозрачное для приложений переключение между площадками. В этом случае при потере одной из СХД, простой бизнес-приложений составляет 0 секунд, пользователи даже не заметят выхода из строя. В случае отказа основной площадки (по любой причине — будь то наводнение, или на нее упадет метеорит, или банально трактор перерубит все подводы электричества к зданию) простой приложений составит 5-7 минут, для пользователей это выглядит как перезагрузка компьютера.

По итогу проделанной работы заказчик получил отказоустойчивый метрокластер. Реализация проекта на действующей основной площадке заказчика заняла более двух месяцев, при этом мы смогли выполнить все внедрения без остановки сервисов и производственных процессов, сотрудники даже не заметили проведение работ.

CNews: Каким образом вы реализовали внедрение?

Алексей Малышев: Мы расписали несколько десятков этапов внедрения, планируя шаги по дням и часам. Такая детализация была необходима ввиду невозможности остановки бизнес-процессов компании. Даже этап завершающего тестирования системы и имитацию катастрофы на одной из площадок мы прошли без прерывания в работе сотрудников. Со стороны «Сонет» было задействовано 2 специалиста и около 4 человек работали над внедрением со стороны заказчика. Проведение работ осложняли ограничения из-за пандемии, ввиду которых присутствие компании «Сонет» на площадке заказчика оказалось невозможным.

CNews: Какие еще сложности возникали в процессе проведения работ?

Алексей Малышев: Самая большая сложность состояла в том, чтобы, как я упоминал, исключить время простоя бизнес-служб в процессе внедрения системы. Возможности HPE 3PAR и операционной системы позволили нам провести внедрение без плановых простоев на протяжении всех работ, в том числе во время тестирования. Все этапы внедрения проводились на рабочей системе и не повлияли на пользователей. Во время реализации проекта произошел единственный незапланированный простой по вине СХД, которая не в проекте. Во время тестирования отказоустойчивости простой этой СХД длился не более часа и не повлиял на основные бизнес-службы заказчика.

Алексей Малышев: Даже завершающее тестирование системы и имитацию катастрофы мы прошли без прерывания в работе сотрудников

CNews: Какой основной итог проекта?

Алексей Малышев: Мы добились главного результата: создали инфраструктуру, в которой при выходе из строя основного ЦОД, все виртуальные машины и другие сервисы автоматически перезапустятся в резервном дата-центре. Даже если во время аварии произойдет обрыв доступа к информационным ресурсам, то он продлится считанные минуты и данные, созданные на момент остановки сервисов, не потеряются. Теперь инфраструктура нашего заказчика выдержит любые испытания, а репутация и доходы этой компании больше не зависят от внешних обстоятельств и человеческого фактора.