ИТ-директор «Сбербанка» раскрыл причины масштабного сбоя
Сбой, в результате которого клиенты «Сбербанка» три часа не могли воспользоваться картами и онлайн-банкингом, был вызван ошибкой в СУБД.Вечером в пятницу, 6 июля, «Сбербанк» прекратил обслуживание всех дебетовых и кредитных карт, а также системы интернет-банкинга. Сбой длился с 17 до 20 часов.
Старший вице-президент, ИТ-директор «Сбербанка» Виктор Орловский в комментариях к статье CNews о произошедшем сбое попросил прощения за доставленные неудобства «у всех вас, тех кто не смог в эти три часа получить сервис», и рассказал детали возникшего инцидента.
Процессинг «Сбербанка» (система называется Way4), по словам Орловского, работает на базе данных Oracle (11 версии) и обслуживает 70 млн карт, по которым проводится около 15 млн онлайн-транзакций в день.
«Oracle пишет логи в онлайн журналы, которые затем автоматически (типа FIFO буфера) сбрасываются на диски. Таким образом, журналы никогда не переполняются», - объяснил он.
«По какой-то причине (пока не понятно по какой) СУБД перестал удалять события из журналов. После чего не прошел один из checkpoint-ов в системе, и она перестала отвечать на действия администратора, - сообщил ИТ-директор. - Систему перевели на резервный комплекс и запустили recovery базы».
Но recovery, по словам Орловского, «остановился посередине пути и не был завершен». Процедуру возобновили «в полуручном режиме, убрав параллельную (многопроцессорную) обработку». «Поэтому получилось долго - последовательная обработка recovery и большой объем данных, требующих «наката» в базу», - добавил он.
Для выяснения причин произошедшего с базой данных специалисты «Сбербанка» в субботу, 7 июля, обрабатывали «все системные логи - что достаточно трудоемко и не тривиально». «Причину обязательно установим. Нам это крайне важно», - пообещал Орловский.
На вопрос читателей CNews об архитектуре системы Орловский рассказал: «У нас используется IBM P 795 c AIX7, базы Oracle 11.2.02 пока без RAC (на RAC переходим в октябре). ГЕО кластер. Дисковые массивы HP».
В ходе дискуссии с читателями CNews ИТ-директор «Сбербанка» сообщил, что специалисты банка без тестирования ничего не внедряют и ни одной настройки не меняют.
Также он сказал, что к расследованию инцидента подключились сотрудники разработчика СУБД: «Сейчас на конференции с Oracle сижу... вроде как разработчики - должны знать, как их система работает...».
В ходе дискуссии читатели CNews посоветовали «Сбербанку» нанять «хорошего админа и хорошего DBA»: «Они, правда, обычно не умеют ходить к 9-00, не любят костюмы и посиделки после 19-00. Но при всей не корпоративности такие люди легко держат в отличном состоянии базы на терабайты и десятки серверов».
«Если таких админов знаете, посылайте на мой мейл. Обещаю не брить, не мыть и галстуки не надевать. Главное, чтобы дело знал», - предложил Виктор Орловский, оставив в комментарии адрес электронной почты.
На призывы некоторых читателей уйти в отставку ИТ-директор «Сбербанка» сказал: «Вопрос по своей отставке не комментирую, потому как все бросить и отойти в сторону - это самое легкое, что можно сделать (и всегда перовое, что приходит в голову, когда такое происходит) ... А самое сложное - это взять себя в руки и найти решение, чтобы таких инцидентов не было».
С полным текстом дискуссии можно ознакомиться по ссылке.