VK Tech запустила облачный Data Lakehouse
VK Tech стала первым в России вендором, который предоставляет пользователям возможность для построения корпоративного Data Lakehouse на управляемых облачных сервисах. Запуск Data Lakehouse стал возможен благодаря появлению на платформе VK Cloud нового сервиса Cloud Trino для обработки больших данных из разнообразных источников.
Data Lakehouse в VK Cloud — это новый подход к хранению и анализу данных, который сочетает лучшие элементы «озёр данных» (Data Lake) и корпоративного хранилища данных (Data Warehouse). Он позволяет снизить нагрузку на системы хранения данных, удешевить хранение неструктурированных данных и эффективно анализировать их за счет разделения вычислительных узлов и хранилищ данных.
Data Lakehouse на платформе VK Cloud реализован на базе S3-совместимого объектного хранилища собственной разработки и высокопроизводительного SQL-движка Cloud Trino, реализованного на базе Kubernetes. Использование доработанных популярных открытых компонентов в составе Data Lakehouse позволяет компаниям получить современный стек для работы с крупными проектами, с оплатой только за фактически потребленные ресурсы, без необходимости покупать лицензии
Благодаря параллельному подключению к нескольким источникам Cloud Trino позволяет сократить время на ETL-процессы, ускорить обработку сырых данных и дает возможность пользователям из различных отделов компаний быстро получать доступ к данным, чтобы легко строить Self-Service-аналитику и получать ценные инсайты в реальном времени. Использование Cloud Storage (S3) даёт возможность сократить в 10 раз стоимость хранения 1 ГБ данных в облаке — до 3 руб. вместо 35 руб. для Data Warehouse. Облачный Kubernetes в основе Trino даёт гибкость: позволяет оперативно расширять инфраструктуру по мере роста потребностей бизнеса, не перезакладывать инфраструктуру для пиковых нагрузок.
«В 2024 г. ежедневно создавалось около 402,89 млн терабайт данных — это 147 зеттабайт данных в год. Прогнозируется, что в 2025 г. этот показатель вырастет до 181 зеттабайта. У наших клиентов данные также растут в геометрической прогрессии, а полнота данных и скорость работы с ними обеспечивает конкурентность бизнеса. Мы создаем инструменты, которые позволяют работать с данными быстрее и дешевле, чтобы больше компаний могли повышать эффективность за счет Data Driven-подхода. С появлением нового сервиса Cloud Trino и ранее разработанных инструментов у нас появился первый в России стек технологий по модели as a service для создания современных архитектур Data Lakehouse. В планах сделать его экстремально быстрым, а хранение данных — экстремально дешевым», — сказал директор по продукту VK Cloud Дмитрий Лазаренко.
Data Lakehouse доступен для построения как на облачной платформе, так на собственной инфраструктуре на базе Private Cloud и VK Data Platform. Инфраструктура публичного облака VK Cloud аттестована по требованиям 152-ФЗ (УЗ-1).