По данным ЦСР, ежедневно в мире создаётся около 330 млн терабайт данных. Технологии управления данными превратились из точечных экспериментов в критически важную основу для цифровых экосистем. Однако вместе с возможностями растут и риски: локализация ИТ-ландшафта, качество и безопасность данных. Какие ошибки в работе с данными обходятся бизнесу дороже всего? Что нужно сделать уже сегодня, чтобы данные не стали «цифровым болотом»? На эти и другие вопросы в интервью CNews ответил Станислав Лазуков, генеральный директор TData.
Станислав ЛазуковTData
CNews: Сегодня многие компании заявляют, что данные — это «новая нефть», стратегически важный актив. Но на практике часто оказывается, что бизнес не умеет с ними работать: например, правильно хранить, структурировать и использовать данные. Какие ошибки и проблемы вы чаще всего видите в управлении данными?
Станислав Лазуков: Большинство компаний сегодня живут в очень сложной лоскутной архитектуре. Это было и до ухода западных вендоров, но после 2022 года ситуация усложнилась ещё больше: часть legacy-решений осталась, появились отечественные инструменты, и всё это нужно как-то «подружить». Такое «лоскутное одеяло» создаёт серьёзные трудности, начиная с согласования источников данных между собой и заканчивая попытками собрать их в единое хранилище или озеро данных.
Помимо разнообразия источников данных возникает и проблема разнотипных технологий для аналитики. На рынке до сих пор присутствуют legacy-решения — SAP HANA, Oracle Exadata и прочие системы, которые когда-то внедрялись, а затем оказались без поддержки. Их начали замещать отечественными продуктами, в том числе продуктами нашей компании, но у компаний есть выбор, и выбор этот непростой. Разнообразие технологий и отсутствие уверенности в долгосрочной стратегии — одна из ключевых болей рынка.
Если говорить про сами технологии, то со старыми, хорошо знакомыми, работать ещё умеют — на рынке есть экспертиза. Есть специалисты по Oracle, по SAP. Но современные архитектуры — MPP-решения, Hadoop-стек, MapReduce — хотя и известны, но экспертизы по ним уже меньше. И чем дальше, тем сильнее дефицит кадров. Новые подходы — Lakehouse, современные архитектуры хранения, S3-совместимые системы, вычислительные движки — требуют архитекторов, которые способны корректно выстроить решения. Таких специалистов сильно не хватает.
Рядом стоит вопрос бюджета. Если бы у всех компаний было много денег, они бы просто купили самые дорогие и зрелые решения и жили бы спокойно. Но в реальности бюджеты ограничены, а от данных ещё и ожидают прибыли. Как с нефтью: перед тем, как перерабатывать, нужно инвестировать в разведку, добычу, транспортировку, а это долго и дорого. С данными так же.
И, пожалуй, последнее — отсутствие чёткой целевой стратегии управления данными. Есть набор общих принципов, но превращение их в реально работающую стратегию — задача непростая. Её нужно согласовать с бизнесом, определить владельцев данных, правила работы, критерии качества, процессы. Это всегда сложный диалог. Поэтому у многих компаний стратегия либо отсутствует, либо существует в декларативном виде и мало помогает на практике.
CNews: Чем обычно руководствуется бизнес, когда обращается с запросами по управлению данными?
Станислав Лазуков: Бизнес практически никогда не приходит с формулировкой «давайте выстроим полноценную стратегию управления данными». Обычно он приходит с конкретной проблемой. Именно наличие серьёзных проблем и стало причиной появления во многих компаниях института CDO (директора по данным — прим. ред.).
CDO часто воспринимают как мага, который должен прийти и «потушить пожар» — быстро исправить ситуацию. И хорошо, когда у него это действительно получается, когда ему доверяют, дают ресурсы и полномочия. Но поскольку запрос изначально формируется как реакция на боль, а не как системная стратегия, компания редко начинает с выстраивания дата-культуры с нуля. Чаще всего это реактивные точечные запросы, а не попытка изменить всю систему управления данными.
В большинстве случаев, даже когда человек приходит с правильными, хрестоматийными подходами к управлению данными, он сталкивается с реальностью на местах. А реальность такова: бизнес не готов тратить на это ни время, ни ресурсы — ни людские, ни финансовые. Нет культуры владения данными и, главное, ответственности за них. Одно дело — считаться владельцем данных, другое — отвечать за их качество, выделять ресурсы на контроль, поддерживать этот контур, финансировать дата-офис или хотя бы людей, которые должны выполнять эти функции.
Поэтому революции за последние годы не произошло: бизнес как хотел 10 лет назад считать эффективность инвестиций в данные, так и хочет сейчас. ROI (возврат инвестиций — прим. ред.) остаётся для всех центральным индикатором эффективности работы с данными вне зависимости от того, насколько это подходящий инструмент оценки.
Можно также отметить регуляторные требования. Ситуация с КИИ, категорирование объектов — всё это появилось и постепенно прижилось. Госкомпании уже довольно давно занимаются импортозамещением, и каждая достигла своей степени зрелости. Но это не инициатива бизнеса. Бизнесу, по большому счёту, всё равно, на чём работает система. Для него важно эффективно потратить деньги и получить прибыль.
CNews: Поговорим подробнее про требования к безопасности: с какими требованиями приходят компании? Они связаны только с регуляторикой или ещё какими-то факторами?
Станислав Лазуков: Обычно мотивация действительно идёт от регуляторных требований, особенно на объектах критической инфраструктуры, таких как финансы, энергетика, госсектор. Но есть и компании, которые действуют проактивно и задумываются о безопасности не только в контексте КИИ.
Безопасность как концепция существует давно. Это не то, что появилось вместе с термином «КИИ». Вопросы защиты данных обсуждаются ещё с момента появления интернета, когда возникла тема утечек и несанкционированного доступа.
Причём помимо внешних угроз, таких как кибератаки и злоумышленники, нужно смотреть внутрь. И если погрузиться в тему глубже, то самый важный риск в данных — их качество. Качество — фундамент безопасных решений, которые принимаются внутри компании. Если данные искажены, повреждены или некорректны из-за внешнего вмешательства или внутренней небрежности, это уже не те данные, которым можно доверять. А безопасность данных напрямую связана с доверием.
Поэтому требования — неважно, клиент это из КИИ или коммерческая компания — всегда включают в себя несколько ключевых направлений:
- Контроль доступа. Понимание, кто и что может видеть.
- Идентификация видов данных. Где лежит ДСП, где персональные данные, где публичная информация. Нужно понимать собственный ландшафт данных, чтобы защищать именно то, что требует защиты.
- Выполнение требований закона. Если это персональные данные, выполняются требования 152-ФЗ. Если ДСП — внутренние корпоративные регламенты.
Для этого мы, например, в одном из продуктов — RT.DataGovernance — делаем акцент на каталогизации данных. Каталог помогает распределить информацию по уровням доступности. Работа эта трудоёмкая, поэтому мы используем модели искусственного интеллекта, чтобы минимизировать ручной труд и уменьшить человеческий фактор. Алгоритмы автоматически анализируют данные, определяют их тип и назначают ограничения доступа.
Далее функции защиты реализуются средствами ИБ — как программными, так и аппаратными. В нашей платформе такие механизмы тоже встроены, и мы проходим сертификацию ФСТЭК по 4-му уровню доверия. Сейчас это наиболее востребованный уровень.
И ещё один важный аспект безопасности — сохранность данных. Одно дело — предотвратить утечку, другое — избежать потери данных. Для этого используются технологии disaster recovery: резервные контуры, дублирование ЦОДов, геораспределённость. Иногда резервы располагают даже в разных городах — именно чтобы обеспечить устойчивость в случае любого критичного инцидента.
Так что сохранность — это не просто техническая деталь, а неотъемлемая часть требований к безопасности данных.
CNews: Говоря о проблемах в управлении данными, вы упомянули импортозамещение и связанный с этим «лоскутный» характер решений — частично зарубежных, частично российских. Насколько сегодня важна локализация инфраструктуры и технологических решений? Насколько критична полная локализация? Или всё же остаются зарубежные элементы, и как они вообще стыкуются с российскими? И, наконец, насколько локализация удорожает архитектуру и внедрение СУБД, средств шифрования и других систем?
Станислав Лазуков: Практика показала, что локализация — это не прихоть, а реальная необходимость. Мы убедились: технологический стек могут отключить удалённо или ограничить доступ к нему. И бизнес мгновенно оказывается в крайне неудобном, зачастую критическом положении.
Если говорить про аналитический контур, его отключение не столь смертельно. Да, жить сложно, но временно можно продолжать работу, пусть и с ограничениями. Но когда речь идёт о транзакционных системах — о ядре банковских решений, биллингах, производственных системах — там любое отключение критично. Это основа ежедневной работы компании.
Поэтому всё, что касается инфраструктуры: операционные системы, виртуализация, железо — тоже нуждается в полноценной замене. Биллинг, ERP, аналитика — всё это работает поверх операционной системы и виртуализации. И в этой части импортозамещение активно движется вперёд. К счастью, на рынке появились качественные отечественные решения, в том числе и в контуре группы «Ростелеком».
Например, что касается виртуализации, у нас есть своя экосистема группы компаний «Базис», и мы с ней полностью интегрированы. В части операционных систем мы обеспечили совместимость практически со всеми ключевыми российскими ОС и находимся с ними в партнёрских отношениях, чтобы развивать интеграцию.
Ещё одно важное направление — интеграция с прикладными системами. Например, с «1С» — крупнейшей ERP-платформой страны, которая является ключевым источником данных для аналитики в большинстве компаний. Мы разрабатываем для неё отдельные коннекторы, сценарии интеграции. И, конечно, работаем и с другими популярными системами.
CNews: Сейчас многие компании стремятся внедрить ИИ, будь то готовые модели или собственные решения. Что в этом процессе должно быть первичным? Нужно ли начинать с ИИ или сначала приводить в порядок данные и строить систему управления ими?
Станислав Лазуков: Важно различать внутренние и внешние данные. Внутренние данные — это специфика конкретного бизнеса: производственные процессы, клиентская база, B2B или B2C-модель, особенности ИТ-ландшафта. Для таких данных создание моделей — всегда сложная история. Использовать готовые модели здесь либо невозможно, либо рискованно. Встаёт вопрос безопасности: многие компании уже столкнулись с тем, что отправляли запросы в публичные LLM (большие языковые модели — прим. ред.), получали полезный ответ, а затем информация утекала и использовалась для обучения модели. Это риск, который нельзя игнорировать.
Внешние данные — совсем другая история. Для задач вроде генерации текстов, подготовки презентаций, поиска информации, анализа открытых данных, исследования трендов большие языковые модели вполне подходят. Эти задачи модели решали и раньше, решают сейчас и будут решать в будущем.
Поэтому логика простая:
- Если речь о внутренних данных, сначала строим управление данными, обеспечиваем качество, безопасность, процессы, и только потом говорим об ИИ. Без качественных данных модель будет выдавать мусор.
- Если речь о внешних данных или задачах генерации контента, можно внедрять ИИ параллельно. Современные инструменты отлично подходят для анализа больших массивов внешней информации — трендов, открытых данных, новостей, материалов, которые человек физически не успеет изучать вручную.
Внешние данные уже готовы к тому, чтобы к ним применять какие-то модели, в частности LLM. Но и к внешним данным, и к внутренним, которые учитывают специфику клиента, нужно «примерить» один очень важный вопрос — вопрос доверия к ним. Мы все знаем, что для LLM есть проблема так называемых галлюцинаций, когда модель выдаёт не очень релевантный или даже не очень правдивый ответ. Поэтому фактчекинг для внешних моделей — насущная задача.
А для внутренних моделей ключевой вопрос — качество данных. Как только мы строим какую-то модель, даже очень качественную с точки зрения математики и высоких метрик доверия, но на некачественных данных, результат получается соответствующий. В этом смысле сама модель вторична: и человек, и машина, опираясь на неполные или некачественные данные, неизбежно выдают плохой результат. Тем не менее, можно констатировать, что ИИ не только стал для многих помощником в рутинных задачах, но и активно усиливает возможности наших продуктов, в частности, в RT.DataGovernance уже выполняет роль ИИ стюарда в заполнении бизнес-глоссария, разметки данных для каталога, описании дата-активов и др.
CNews: Вы уже упоминали важность ROI для бизнеса, то есть бизнес прежде всего хочет получать выгоды в работе с данными. Что мешает на данных зарабатывать? Недостаточно компетентные кадры, скромные инвестиции в технологии и инфраструктуру или в целом неправильный подход к data-культуре, к системе управления данными? И во что бизнесу выгоднее и правильнее инвестировать, чтобы превратить данные в актив, который приносит деньги?
Станислав Лазуков: Универсального рецепта нет. Тут стоит подходить как к приготовлению яичницы: кто-то добавляет овощи, кто-то колбасу, и у всех свой вкус. Любой бизнес в каком-то смысле уникален. С одной стороны, можно возразить, что у всех одинаковая цель — зарабатывать деньги. Тем не менее, специфика у каждого своя.
По-хорошему, нужно инвестировать во всё сразу: и в технологии, и в культуру, и в кадры. Сложно дать одну универсальную формулу, которая подойдёт всем. Но понятно, что данных у всех много, источники разнообразные, важны минимальные задержки, real-time-обработка и так далее. Если не заниматься архитектурой, получается «цифровое болото». Поэтому нужен инструмент, который позволяет хранить и обрабатывать разные типы данных эффективно и с минимальными затратами.
Нужен также инструмент, который это «болото» структурирует: поможет описать данные, определить единый глоссарий, вести единый каталог данных. Это как раз Data Governance, о котором я говорил, — наш продукт направлен именно на это. Часто он становится основой для построения культуры работы с данными: появляется единая точка правды о том, какие данные есть и где они находятся. Культура порядка в данных движется вместе с такими инструментами.
Но целевая модель — это культура принятия решений на данных. Когда есть инструменты анализа, всё больше эту нишу занимает искусственный интеллект. Если в горизонте 3–5 лет появится общий AGI (Artificial General Intelligence или Общий Искусственный Интеллект — прим. ред.), не исключено, что он начнёт постепенно отбирать часть решений у человека. В этом смысле культура не менее важна, чем технология.
Кадры тоже критичны. Без людей, которые понимают и бизнес, и технологии, находятся на стыке, сложно реализовывать стратегию построения цифровой компании. Очевидна необходимость инвестиций в кадры. Для вендора это отдельная боль: нужно инвестировать в специалистов, которые создадут инструменты для разработчиков и других профессионалов, а к таким людям предъявляются особенно жёсткие требования по квалификации. Инвестиции в кадры на стороне клиента — людей, понимающих и технологию, и бизнес, — тоже всегда ключевой аспект.
CNews: Дайте визионерский прогноз на ближайшие 2–5 лет по технологиям, регулированию, кадрам и бизнесу в сфере работы с данными.
Станислав Лазуков: Важно сначала посмотреть в прошлое. Последние 10–15 лет бизнес становился data-driven («управляемым данными» — прим. ред.): всё больше решений принималось на данных, росли инвестиции в аналитику. Но не все отрасли успели за этим трендом. Передовики — это банки, телеком, во многом государственный сектор. А многие отрасли, например, здравоохранение и производство, до сих пор не всегда даже знают, какие у них есть данные и где они лежат.
В ближайшие три года всем нужно стать AI-driven («управляемыми ИИ» — прим. ред.). Если раньше многие не успели стать data-driven за 10 лет, то теперь нужно за 3–5 лет научиться быть AI-driven и научиться делегировать часть решений искусственному интеллекту, пусть сначала и в некритичных зонах. Это и есть основной вызов и риск.
Есть фраза (не помню автора), что тот, кто не управляет своими данными, принимает решения неэффективно. Сейчас вопрос стоит ещё жёстче: тот, кто не научится этим заниматься на горизонте 3–5 лет, безнадёжно отстанет — лидеры убегут слишком далеко. Уже сейчас есть очевидные ИИ-лидеры и в мире, и в России, которые далеко впереди. Остальным как минимум нужно научиться распоряжаться своими данными, чтобы затем проще внедрять у себя технологии, уже опробованные лидерами.
