Спецпроекты

Обзор скоро выйдет
Станислав Лазуков, TData: Те, кто не научится управлять данными в течение 3–5 лет, безнадёжно отстанут

По данным ЦСР, ежедневно в мире создаётся около 330 млн терабайт данных. Технологии управления данными превратились из точечных экспериментов в критически важную основу для цифровых экосистем. Однако вместе с возможностями растут и риски: локализация ИТ-ландшафта, качество и безопасность данных. Какие ошибки в работе с данными обходятся бизнесу дороже всего? Что нужно сделать уже сегодня, чтобы данные не стали «цифровым болотом»? На эти и другие вопросы в интервью CNews ответил Станислав Лазуков, генеральный директор TData.

Станислав ЛазуковTData

CNews: Сегодня многие компании заявляют, что данные — это «новая нефть», стратегически важный актив. Но на практике часто оказывается, что бизнес не умеет с ними работать: например, правильно хранить, структурировать и использовать данные. Какие ошибки и проблемы вы чаще всего видите в управлении данными?

Станислав Лазуков: Большинство компаний сегодня живут в очень сложной лоскутной архитектуре. Это было и до ухода западных вендоров, но после 2022 года ситуация усложнилась ещё больше: часть legacy-решений осталась, появились отечественные инструменты, и всё это нужно как-то «подружить». Такое «лоскутное одеяло» создаёт серьёзные трудности, начиная с согласования источников данных между собой и заканчивая попытками собрать их в единое хранилище или озеро данных.

Станислав Лазуков, TData: Большинство компаний сегодня живут в очень сложной лоскутной архитектуре

Помимо разнообразия источников данных возникает и проблема разнотипных технологий для аналитики. На рынке до сих пор присутствуют legacy-решения — SAP HANA, Oracle Exadata и прочие системы, которые когда-то внедрялись, а затем оказались без поддержки. Их начали замещать отечественными продуктами, в том числе продуктами нашей компании, но у компаний есть выбор, и выбор этот непростой. Разнообразие технологий и отсутствие уверенности в долгосрочной стратегии — одна из ключевых болей рынка.

«Разнообразие технологий и отсутствие уверенности в долгосрочной стратегии — одна из ключевых болей рынка»

Если говорить про сами технологии, то со старыми, хорошо знакомыми, работать ещё умеют — на рынке есть экспертиза. Есть специалисты по Oracle, по SAP. Но современные архитектуры — MPP-решения, Hadoop-стек, MapReduce — хотя и известны, но экспертизы по ним уже меньше. И чем дальше, тем сильнее дефицит кадров. Новые подходы — Lakehouse, современные архитектуры хранения, S3-совместимые системы, вычислительные движки — требуют архитекторов, которые способны корректно выстроить решения. Таких специалистов сильно не хватает.

Рядом стоит вопрос бюджета. Если бы у всех компаний было много денег, они бы просто купили самые дорогие и зрелые решения и жили бы спокойно. Но в реальности бюджеты ограничены, а от данных ещё и ожидают прибыли. Как с нефтью: перед тем, как перерабатывать, нужно инвестировать в разведку, добычу, транспортировку, а это долго и дорого. С данными так же.

И, пожалуй, последнее — отсутствие чёткой целевой стратегии управления данными. Есть набор общих принципов, но превращение их в реально работающую стратегию — задача непростая. Её нужно согласовать с бизнесом, определить владельцев данных, правила работы, критерии качества, процессы. Это всегда сложный диалог. Поэтому у многих компаний стратегия либо отсутствует, либо существует в декларативном виде и мало помогает на практике.

CNews: Чем обычно руководствуется бизнес, когда обращается с запросами по управлению данными?

Станислав Лазуков: Бизнес практически никогда не приходит с формулировкой «давайте выстроим полноценную стратегию управления данными». Обычно он приходит с конкретной проблемой. Именно наличие серьёзных проблем и стало причиной появления во многих компаниях института CDO (директора по данным — прим. ред.).

CDO часто воспринимают как мага, который должен прийти и «потушить пожар» — быстро исправить ситуацию. И хорошо, когда у него это действительно получается, когда ему доверяют, дают ресурсы и полномочия. Но поскольку запрос изначально формируется как реакция на боль, а не как системная стратегия, компания редко начинает с выстраивания дата-культуры с нуля. Чаще всего это реактивные точечные запросы, а не попытка изменить всю систему управления данными.

В большинстве случаев, даже когда человек приходит с правильными, хрестоматийными подходами к управлению данными, он сталкивается с реальностью на местах. А реальность такова: бизнес не готов тратить на это ни время, ни ресурсы — ни людские, ни финансовые. Нет культуры владения данными и, главное, ответственности за них. Одно дело — считаться владельцем данных, другое — отвечать за их качество, выделять ресурсы на контроль, поддерживать этот контур, финансировать дата-офис или хотя бы людей, которые должны выполнять эти функции.

Поэтому революции за последние годы не произошло: бизнес как хотел 10 лет назад считать эффективность инвестиций в данные, так и хочет сейчас. ROI (возврат инвестиций — прим. ред.) остаётся для всех центральным индикатором эффективности работы с данными вне зависимости от того, насколько это подходящий инструмент оценки.

«Бизнес как хотел 10 лет назад считать эффективность инвестиций в данные, так и хочет сейчас»

Можно также отметить регуляторные требования. Ситуация с КИИ, категорирование объектов — всё это появилось и постепенно прижилось. Госкомпании уже довольно давно занимаются импортозамещением, и каждая достигла своей степени зрелости. Но это не инициатива бизнеса. Бизнесу, по большому счёту, всё равно, на чём работает система. Для него важно эффективно потратить деньги и получить прибыль.

CNews: Поговорим подробнее про требования к безопасности: с какими требованиями приходят компании? Они связаны только с регуляторикой или ещё какими-то факторами?

Станислав Лазуков: Обычно мотивация действительно идёт от регуляторных требований, особенно на объектах критической инфраструктуры, таких как финансы, энергетика, госсектор. Но есть и компании, которые действуют проактивно и задумываются о безопасности не только в контексте КИИ.

Безопасность как концепция существует давно. Это не то, что появилось вместе с термином «КИИ». Вопросы защиты данных обсуждаются ещё с момента появления интернета, когда возникла тема утечек и несанкционированного доступа.

Причём помимо внешних угроз, таких как кибератаки и злоумышленники, нужно смотреть внутрь. И если погрузиться в тему глубже, то самый важный риск в данных — их качество. Качество — фундамент безопасных решений, которые принимаются внутри компании. Если данные искажены, повреждены или некорректны из-за внешнего вмешательства или внутренней небрежности, это уже не те данные, которым можно доверять. А безопасность данных напрямую связана с доверием.

Поэтому требования — неважно, клиент это из КИИ или коммерческая компания — всегда включают в себя несколько ключевых направлений:

  1. Контроль доступа. Понимание, кто и что может видеть.
  2. Идентификация видов данных. Где лежит ДСП, где персональные данные, где публичная информация. Нужно понимать собственный ландшафт данных, чтобы защищать именно то, что требует защиты.
  3. Выполнение требований закона. Если это персональные данные, выполняются требования 152-ФЗ. Если ДСП — внутренние корпоративные регламенты.

Для этого мы, например, в одном из продуктов — RT.DataGovernance — делаем акцент на каталогизации данных. Каталог помогает распределить информацию по уровням доступности. Работа эта трудоёмкая, поэтому мы используем модели искусственного интеллекта, чтобы минимизировать ручной труд и уменьшить человеческий фактор. Алгоритмы автоматически анализируют данные, определяют их тип и назначают ограничения доступа.

Далее функции защиты реализуются средствами ИБ — как программными, так и аппаратными. В нашей платформе такие механизмы тоже встроены, и мы проходим сертификацию ФСТЭК по 4-му уровню доверия. Сейчас это наиболее востребованный уровень.

И ещё один важный аспект безопасности — сохранность данных. Одно дело — предотвратить утечку, другое — избежать потери данных. Для этого используются технологии disaster recovery: резервные контуры, дублирование ЦОДов, геораспределённость. Иногда резервы располагают даже в разных городах — именно чтобы обеспечить устойчивость в случае любого критичного инцидента.

Так что сохранность — это не просто техническая деталь, а неотъемлемая часть требований к безопасности данных.

«Локализация — это не прихоть, а реальная необходимость»

CNews: Говоря о проблемах в управлении данными, вы упомянули импортозамещение и связанный с этим «лоскутный» характер решений — частично зарубежных, частично российских. Насколько сегодня важна локализация инфраструктуры и технологических решений? Насколько критична полная локализация? Или всё же остаются зарубежные элементы, и как они вообще стыкуются с российскими? И, наконец, насколько локализация удорожает архитектуру и внедрение СУБД, средств шифрования и других систем?

Станислав Лазуков: Практика показала, что локализация — это не прихоть, а реальная необходимость. Мы убедились: технологический стек могут отключить удалённо или ограничить доступ к нему. И бизнес мгновенно оказывается в крайне неудобном, зачастую критическом положении.

Если говорить про аналитический контур, его отключение не столь смертельно. Да, жить сложно, но временно можно продолжать работу, пусть и с ограничениями. Но когда речь идёт о транзакционных системах — о ядре банковских решений, биллингах, производственных системах — там любое отключение критично. Это основа ежедневной работы компании.

Поэтому всё, что касается инфраструктуры: операционные системы, виртуализация, железо — тоже нуждается в полноценной замене. Биллинг, ERP, аналитика — всё это работает поверх операционной системы и виртуализации. И в этой части импортозамещение активно движется вперёд. К счастью, на рынке появились качественные отечественные решения, в том числе и в контуре группы «Ростелеком».

Например, что касается виртуализации, у нас есть своя экосистема группы компаний «Базис», и мы с ней полностью интегрированы. В части операционных систем мы обеспечили совместимость практически со всеми ключевыми российскими ОС и находимся с ними в партнёрских отношениях, чтобы развивать интеграцию.

Ещё одно важное направление — интеграция с прикладными системами. Например, с «» — крупнейшей ERP-платформой страны, которая является ключевым источником данных для аналитики в большинстве компаний. Мы разрабатываем для неё отдельные коннекторы, сценарии интеграции. И, конечно, работаем и с другими популярными системами.

CNews: Сейчас многие компании стремятся внедрить ИИ, будь то готовые модели или собственные решения. Что в этом процессе должно быть первичным? Нужно ли начинать с ИИ или сначала приводить в порядок данные и строить систему управления ими?

Станислав Лазуков: Важно различать внутренние и внешние данные. Внутренние данные — это специфика конкретного бизнеса: производственные процессы, клиентская база, B2B или B2C-модель, особенности ИТ-ландшафта. Для таких данных создание моделей — всегда сложная история. Использовать готовые модели здесь либо невозможно, либо рискованно. Встаёт вопрос безопасности: многие компании уже столкнулись с тем, что отправляли запросы в публичные LLM (большие языковые модели — прим. ред.), получали полезный ответ, а затем информация утекала и использовалась для обучения модели. Это риск, который нельзя игнорировать.

Внешние данные — совсем другая история. Для задач вроде генерации текстов, подготовки презентаций, поиска информации, анализа открытых данных, исследования трендов большие языковые модели вполне подходят. Эти задачи модели решали и раньше, решают сейчас и будут решать в будущем.

Поэтому логика простая:

  1. Если речь о внутренних данных, сначала строим управление данными, обеспечиваем качество, безопасность, процессы, и только потом говорим об ИИ. Без качественных данных модель будет выдавать мусор.
  2. Если речь о внешних данных или задачах генерации контента, можно внедрять ИИ параллельно. Современные инструменты отлично подходят для анализа больших массивов внешней информации — трендов, открытых данных, новостей, материалов, которые человек физически не успеет изучать вручную.

Внешние данные уже готовы к тому, чтобы к ним применять какие-то модели, в частности LLM. Но и к внешним данным, и к внутренним, которые учитывают специфику клиента, нужно «примерить» один очень важный вопрос — вопрос доверия к ним. Мы все знаем, что для LLM есть проблема так называемых галлюцинаций, когда модель выдаёт не очень релевантный или даже не очень правдивый ответ. Поэтому фактчекинг для внешних моделей — насущная задача.

А для внутренних моделей ключевой вопрос — качество данных. Как только мы строим какую-то модель, даже очень качественную с точки зрения математики и высоких метрик доверия, но на некачественных данных, результат получается соответствующий. В этом смысле сама модель вторична: и человек, и машина, опираясь на неполные или некачественные данные, неизбежно выдают плохой результат. Тем не менее, можно констатировать, что ИИ не только стал для многих помощником в рутинных задачах, но и активно усиливает возможности наших продуктов, в частности, в RT.DataGovernance уже выполняет роль ИИ стюарда в заполнении бизнес-глоссария, разметки данных для каталога, описании дата-активов и др.

CNews: Вы уже упоминали важность ROI для бизнеса, то есть бизнес прежде всего хочет получать выгоды в работе с данными. Что мешает на данных зарабатывать? Недостаточно компетентные кадры, скромные инвестиции в технологии и инфраструктуру или в целом неправильный подход к data-культуре, к системе управления данными? И во что бизнесу выгоднее и правильнее инвестировать, чтобы превратить данные в актив, который приносит деньги?

Станислав Лазуков: Универсального рецепта нет. Тут стоит подходить как к приготовлению яичницы: кто-то добавляет овощи, кто-то колбасу, и у всех свой вкус. Любой бизнес в каком-то смысле уникален. С одной стороны, можно возразить, что у всех одинаковая цель — зарабатывать деньги. Тем не менее, специфика у каждого своя.

По-хорошему, нужно инвестировать во всё сразу: и в технологии, и в культуру, и в кадры. Сложно дать одну универсальную формулу, которая подойдёт всем. Но понятно, что данных у всех много, источники разнообразные, важны минимальные задержки, real-time-обработка и так далее. Если не заниматься архитектурой, получается «цифровое болото». Поэтому нужен инструмент, который позволяет хранить и обрабатывать разные типы данных эффективно и с минимальными затратами.

«Если не заниматься архитектурой, получается “цифровое болото”»

Нужен также инструмент, который это «болото» структурирует: поможет описать данные, определить единый глоссарий, вести единый каталог данных. Это как раз Data Governance, о котором я говорил, — наш продукт направлен именно на это. Часто он становится основой для построения культуры работы с данными: появляется единая точка правды о том, какие данные есть и где они находятся. Культура порядка в данных движется вместе с такими инструментами.

Но целевая модель — это культура принятия решений на данных. Когда есть инструменты анализа, всё больше эту нишу занимает искусственный интеллект. Если в горизонте 3–5 лет появится общий AGI (Artificial General Intelligence или Общий Искусственный Интеллект — прим. ред.), не исключено, что он начнёт постепенно отбирать часть решений у человека. В этом смысле культура не менее важна, чем технология.

Кадры тоже критичны. Без людей, которые понимают и бизнес, и технологии, находятся на стыке, сложно реализовывать стратегию построения цифровой компании. Очевидна необходимость инвестиций в кадры. Для вендора это отдельная боль: нужно инвестировать в специалистов, которые создадут инструменты для разработчиков и других профессионалов, а к таким людям предъявляются особенно жёсткие требования по квалификации. Инвестиции в кадры на стороне клиента — людей, понимающих и технологию, и бизнес, — тоже всегда ключевой аспект.

CNews: Дайте визионерский прогноз на ближайшие 2–5 лет по технологиям, регулированию, кадрам и бизнесу в сфере работы с данными.

Станислав Лазуков: Важно сначала посмотреть в прошлое. Последние 10–15 лет бизнес становился data-driven («управляемым данными» — прим. ред.): всё больше решений принималось на данных, росли инвестиции в аналитику. Но не все отрасли успели за этим трендом. Передовики — это банки, телеком, во многом государственный сектор. А многие отрасли, например, здравоохранение и производство, до сих пор не всегда даже знают, какие у них есть данные и где они лежат.

В ближайшие три года всем нужно стать AI-driven («управляемыми ИИ» — прим. ред.). Если раньше многие не успели стать data-driven за 10 лет, то теперь нужно за 3–5 лет научиться быть AI-driven и научиться делегировать часть решений искусственному интеллекту, пусть сначала и в некритичных зонах. Это и есть основной вызов и риск.

Есть фраза (не помню автора), что тот, кто не управляет своими данными, принимает решения неэффективно. Сейчас вопрос стоит ещё жёстче: тот, кто не научится этим заниматься на горизонте 3–5 лет, безнадёжно отстанет — лидеры убегут слишком далеко. Уже сейчас есть очевидные ИИ-лидеры и в мире, и в России, которые далеко впереди. Остальным как минимум нужно научиться распоряжаться своими данными, чтобы затем проще внедрять у себя технологии, уже опробованные лидерами.