Разделы

ПО Бизнес Цифровизация ИТ в банках Маркет

ВТБ для работы с большими данными «подружил» Hadoop с ПО Microsoft

Банк ВТБ для удобства работы своих пользователей с большими данными осуществил интеграцию Hadoop с Microsoft Power BI. В проекте приняли участие представители зарубежного софтверного гиганта.

Интеграция Hadoop с Microsoft Power BI

Как стало известно CNews, первый эксперимент ВТБ по внедрению инструментов больших данных с использование свободного ПО в своем развитии сделал ставку на более традиционные проприетерные программные продукты. Пользователям созданной в банке системы ГАУСС для формирования аналитической и управленческой отчетности на открытой платформе Hadoop с использованием свободной СУБД PostgreSQL и применением технологий обработки данных Apache Spark и Apache Zeppelin потребовались привычные инструменты бизнес-аналитики, а именно Microsoft Power BI.

С учетом того, что напрямую Power BI с Hadoop взаимодействовать не может, но хорошо работает с данным в Microsoft SQL Server, в ВТБ решили осуществить интеграцию этой СУБД с Hadoop, задействовав для этого Microsoft Polybase. Эта технология обращается к информации за пределами базы данных с помощью языка Transact-SQL (T-SQL — процедурное расширение языка SQL). В SQL Server она позволяет выполнять запросы к внешним данным в хранилище BLOB-объектов (массивов двоичных данных) Hadoop, а также импортировать в него данные и экспортировать их из него.

Помощь из Microsoft

Polybase призвана считывать данные из Hadoop в разных режимах, однако в ВТБ при использовании некоторых из них возникли определенные сложности. Для их устранения банк обратился к вендору решения — Microsoft.

Для работы с большими данными из Hadoop банк ВТБ привлек Microsoft

Как сообщил CNews начальник управления автоматизации транзакционного бизнеса департамента ИТ группы ВТБ Артем Батюков, в итоге над вопросом импорта данных из Hadoop непосредственно в таблицы SQL Server совместно работали специалисты и ВТБ, и Microsoft, и компании Luxoft, которую в банке именуют вендором проекта по созданию ГАУССа.

«Мы привлекли технических специалистов Microsoft с уникальными навыками, например, специально для этой задачи дополнительно привлекли архитектора и разработчика, которые эффективно справляются с задачами R&D и проведения POC (Proof of Concept, проверочные испытания; — прим. CNews), — говорит Батюков. — Кроме этого, Microsoft также выделял дополнительно специалистов для поддержки решения этой задачи».

В итоге, как рассказали CNews в ВТБ, на данный момент все проблемы решены, а проект интеграции носит статус завершенного.

В чем именно преимущества Power BI для ВТБ

Рассуждения об объективных причинах использования в работе с большими данными в ВТБ Power BI Артем Батюков в разговоре с CNews начал с указания на то, что Hadoop и Apache Spark позволяют банку обрабатывать большие объемы данных по заранее согласованным алгоритмам. «В большом банке, а ВТБ — это огромный банк, таких транзакций в день несколько миллионов только по крупным клиентам банка, — говорит он. — Таким образом, есть предварительно настроенные алгоритмы, применяя которые, система ежедневно эффективно формирует детализированный массив данных, который показывает заданные параметры по каждому продукту банка для каждого счета, клиента».

По словам Батюкова, для реализации любого алгоритма в Hadoop требуются навыки в программировании. Что же касается Microsoft Power BI, то он позволяет аналитикам строить любые отчеты в рамках предварительно настроенной модели данных, источником которых является Hadoop, без каких либо навыков программирования — инструмент очень прост и похож на MS Excel и другие инструменты MS Office.

«Например, мы хотим изучить объемы транзакций по продуктам, клиентам и счетам за произвольный период, — поясняет Батюков. — С помощью Power BI мы быстро выбираем сущности “продукт”, “клиент”, “счет”, задаем период и находим требующиеся для отображения детали. В результате пользователь быстро получает необходимую информацию в нужных разрезах в рамках заданной модели, которая в отличие от Hadoop ограничивает детализацию данных. В Hadoop хранится большое количество деталей, например, номер, дата, сумма транзакции, а в Power BI используются только агрегированные данные, например суммы комиссий».

Кроме того, Батюков обращает внимание на то, что Microsoft Power BI — это инструмент бизнес-аналитики, который уже и так используется в банке централизовано, а приверженность единому ИТ-ландшафту более выгодна с экономической точки зрения.

Прошлое, настоящее и будущее проекта ГАУСС

Напомним, о завершении пилотного проекта по созданию на основе Hadoop системы ГАУСС (GAUSS — Global Transaction Business Analytic Unified Source & System, единая аналитическая система-источник для транзакционного бизнеса) CNews писал в июле 2017 г. Планы по интеграции системы с Microsoft Power BI были анонсированы еще тогда.

Для банка это стало первым опытом в области больших данных, хотя в целом в группе ВТБ (в частности, в ВТБ 24) уже внедрены проприетарные решения Teradata, SAS и Oracle.

Проект стартовал в ноябре 2016 г. Ключевой его этап завершился в мае 2017 г., после чего было принято решение о развитии функциональности к сентябрю 2017 г.

ГАУСС работает на кластерах, состоящих из множества узлов, где предусмотрено дублирование системы на случай выхода из строя одного из них и осуществляется поддержка нескольких рабочих копий данных. «Hadoop был выбран для построения системы, так как его работа основана на принципе параллельной обработки данных, — поясняют в банке — это позволяет увеличить скорость формирования отчетности и построения прогнозов. Система отличается особой отказоустойчивостью и возможностью параллельной работы и пользователей, и программистов одновременно».

Система ГАУСС впервые в группе ВТБ была реализована по известному методу гибкой разработки Agile scrum. В банке считают, что при использовании традиционных подходов проект растянулся бы на год, то есть занял бы в два раза больше времени. «Кроме того, уже в ходе проекта были внесены правки и изменения, что существенно повышает качество конечного результата», — отмечают в организации.

В июле 2017 г. ГАУСС использовался для построения отчетности. Сейчас в ВТБ сообщили CNews, что за прошедшее время банку удалось подключить к системе альтернативные источники информации. В планах — реализация прогнозного модуля. «Проект постоянно развивается в соответствии с последними международными инновациями, на данный момент мы изучаем возможности внедрения Data Science и AI», — говорит Артем Батюков.

Несколько фактов о банке ВТБ

Банк ВТБ выступает ключевым активом российской финансовой группы ВТБ, объединяющей более 20 кредитных и финансовых компаний, работающих во всех основных сегментах финансового рынка.

По данным ранкинага «Интерфакс-100», по итогам третьего квартала 2017 г. банк сохранил за собой второе место в России по величине активов, объем которых составил 9,36 трлн руб.

Денис Воейков