Разделы

Бизнес Цифровизация Big Data

Ольга Свитнева, «Самолет»: Несмотря на негативные условия, застройщики переходят на data-driven management

Российский рынок больших данных и бизнес-аналитики продолжает расти. Все больше компаний переходят на data-driven подход, фокусируясь на том, чтобы не просто собирать информацию из разных источников, но и качественно ее обрабатывать и использовать для принятия решений. Как строится работа с данными у российских застройщиков, в интервью CNews рассказала директор по данным группы «Самолет» Ольга Свитнева.

«Данные имеют ценность, лишь когда пригодны для принятия решений»

CNews: На каком этапе развития сейчас технологии работы с большими данными в России, в мире? Насколько мы технологически отстаем — и отстаем ли?

Ольга Свитнева: Рынок больших данных в России в последние годы сильно вырос. Это глобальная тенденция, которая затрагивает все отрасли. Согласно исследованию Research and Markets, до 2028 года рынок будет расти в среднем на 13,3%, а некоторые эксперты считают, что рост в России составит до 20% в год. Все компании осознают экономический эффект внедрения этих технологий и выступают не только потребителями, но и генераторами данных.

Условно рынок больших данных можно разделить на два крупных сегмента: технологии, которые касаются сбора и хранения данных, и технологии, которые заточены под анализ данных и извлечение из них ценности.

Второй сегмент сегодня бурно развивается в нашей стране — на мой взгляд, во многом это обусловлено тем, что Россия взяла курс на технологический суверенитет. Государство поддерживает в том числе и большие данные, вспомним нацпроект «Экономика данных». Мне кажется, за последние пару лет мы по этому направлению выполнили две пятилетки, внутренняя экспертиза по данным в нашей стране серьезно расширилась. И в том числе это объясняется активной стимуляцией спроса на российские ИТ-решения.

Ольга Свитнева, «Самолет»: Высокий интерес остается к классу решений искусственного интеллекта

CNews: Какие технологии по работе с данными сейчас в тренде?

Ольга Свитнева: Данных становится все больше, поэтому нужно находить способы их хранить дешево и эффективно. И самой популярной технологией хранения первого сегмента данных стала S3 (Simple Storage Service — технология объектного хранения данных.) Дополнительное преимущество объектного хранилища мы получаем в сочетании с современной парадигмой LakeHouse. Это позволяет гибко масштабировать среды хранения и вычислений независимо друг от друга, что в принципе невозможно в распространенной концепции Hadoop Data Lake.

Также необходимо упомянуть о рынке BI-решений — речь уже про второй сегмент данных. За последний год на рынок вышло огромное количество продуктов, и вызов для разработчиков в том, кто из вендоров эту нишу за собой сможет удержать, потому что конкуренция очень высокая. На мой взгляд, наиболее востребованы в этом сегменте в ближайшие несколько лет будут проприетарные продукты, поскольку у заказчиков есть определенный исторический опыт, и хочется сохранить привычные возможности, Open Source решения также доступны, но пока не закрывают ряд критических параметров.

И, конечно же, высокий интерес остается к классу решений искусственного интеллекта. На волне популярности — генеративный ИИ, но не теряют востребованности нейросети (особенно для задач сортировки данных), предиктивная аналитика (построение прогнозов), имитационное моделирование (оценка того, как поведут себя одни показатели при изменении других), статистический анализ (выявление тенденций), а также добыча новой информации на основе классификации, кластеризации, регрессии, анализа отклонений и поиска повторяющихся образов.

CNews: А языковые модели?

Ольга Свитнева: Да, они очень востребованы, особенно, если говорить о чат-ботах, генерации текстов или переводах. Сейчас почти все игроки рынка так или иначе используют эти решения. Качественно обученная модель способна выдавать релевантные результаты, и мы их тоже используем.

В фокусе важно держать, что любая языковая модель нуждается в качественных данных на входе, иначе на выходе мы получим низкую точность моделей, а как следствие — риски неправильных выводов для принятия решений

С другой стороны, растет потребность в актуальных данных в реальном времени. Поэтому, если говорить о трендах именно на 2025-2026 гг., то это активное развитие платформ потоковой обработки данных. Мы начинаем обрабатывать данные в реальном времени, а батчевая загрузка данных (Batch processing) постепенно будет уходить на второй план.

Также на повестку дня выходят технологии, призванные обеспечивать качество и безопасность данных, особенно, чувствительных. Безопасность с точки зрения разработки должна быть заложена в ландшафте, этого требуют как политики data governance, так и законодательство.

Что касается качества данных и управления мастер-данными, эта область в России, на мой взгляд, недостаточно развита. Все компании уже научились данные собирать и обрабатывать, но ценность они имеют лишь тогда, когда пригодны для принятия решений (они качественные, очищенные, актуальные, точные и целостные). А также — когда единые справочники тиражируются во все системы компании. И для этого существует отдельный класс систем, которые принято называть MDM, Master Data Management. Эти системы имеют большой потенциал для развития, я надеюсь, что наш рынок в ближайшие годы пойдет в собственную разработку в этом направлении.

«Постепенно мы выходим на data-driven management»

CNews: Строительная отрасль в России сегодня переживает не лучшие времена из-за высокой ключевой ставки, рынок недвижимости замер. Как в этой ситуации застройщикам могут помочь большие данные?

Ольга Свитнева: Данные — это новая нефть, и надо уже научиться ее качать, чтобы получать конкурентные преимущества. Всегда, когда внешняя ситуация непростая, интерес к данным возрастает. В строительном бизнесе данные позволяют строить прогнозы, оптимизировать процессы, повышать уровень обслуживания клиентов и даже сокращать затраты. Постепенно мы выходим на data-driven management: несмотря на негативные условия, компании начинают принимать решения, опираясь на данные.

Ольга Свитнева, «Самолет»: Системы Master Data Management имеют большой потенциал для развития

Если говорить о «Самолете», то, с точки зрения бизнес-процессов, данные можно сказать «пронизывают» всю компанию. Ожидание современного застройщика от больших данных касаются широкого класса задач: это получение финансовой и проектной документации, оценка эффективности, митигация рисков, улучшение планирования, сокращение затрат. Причем абсолютно для всех бизнес-направлений у нас есть ключевые проекты, развитие которых очень важно для компании.

CNews: Аналитики обычно оценивают уровень проникновения цифровых технологий в строительной отрасли как низкий. Вы с этим согласны? Технологии больших данных вообще востребованы у застройщиков? Если да, то насколько они «продвинутые»?

Ольга Свитнева: «Самолет» давно инвестирует в большие данные, и степень зрелости таких решений — это предмет нашей гордости. Но если говорить про отрасль в целом, то многие застройщики не идут в самые современные технологии, а используют несколько устаревшие, но хорошо себя зарекомендовавшие подходы, типа корпоративных хранилищ или Hadoop. Впрочем, нужно отметить, что эти технологии до сих пор используют очень многие российские компании и в других отраслях. И во многом это обусловлено сложностями миграции в новый стек и замены архитектуры.

Прежде чем принимать решение о замене подходов, следует провести корреляцию со стратегией компании: методы работы с данными должны соответствовать насущным задачам бизнеса. По моему убеждению, принцип «технологии ради технологий» не работает на практике, так как не имеет business value.

В «Самолете» есть стимул для развития направления данных, и мы используем самые передовые технологии и практики в этой области. Это обусловлено тем, что все больше решений принимается на основе оцифрованных данных. На иллюстрации ниже можно увидеть упрощенную схему архитектуры нашего решения, в основу которого заложены подходы DataOps и актуальная линейка Open Source стека.

Упрощенная схема архитектуры платформы данных

CNews: Как прошедший год повлиял на стратегию по данным «Самолета»? Что-то пришлось пересматривать?

Ольга Свитнева: Год был сложным для отрасли, непростым для нашей компании в том числе. Но мы смогли обеспечить миграцию на инфраструктуру в собственный ЦОД, применили абстракцию над инфраструктурой в виде Kubernetes, где развернули современный стек по работе с данными.

В частности осуществили переезд с Hadoop на S3, и все это было сделано без остановки бизнес-функций. И очень важно, что мы выстроили решение, применяя подходы DataOps и такие практики, как Infrastructure as code, GitOps, CI/CD. Если изначально заложить этот фундамент, он обеспечит потенциал для развития всей стратегии работы с данными.

Практики и инфраструктура

И, конечно, еще одна из ключевых особенностей нашей data-платформы — она на 80% состоит из собственных разработок. У нас всего два лицензионных продукта, которые мы решили выбрать из решений, представленных на рынке, потому что оценили сроки, и поняли, что это выгоднее. Все остальное сделала наша команда, и я могу заверить, что единицы компаний в России могут похвастаться такими высокими компетенциями в Big Data.

«Важная задача — обеспечение единой версии правды данных»

CNews: Какие инструменты могут помочь девелоперу правильно выстроить данные?

Ольга Свитнева: BI-решения, например, помогают получать актуальную информацию в удобном для анализа виде, причем это как операционная, так и стратегическая отчетность компании. Применяя автоматизацию, можно оптимизировать рутинные процессы и высвободить ресурс специалистов на более сложные задачи. Единый источник правды и зафиксированные методологии расчета исключают риски некорректной трактовки показателей или дискоммуникации. Обеспечение качества и актуальности данных служит основой для корректных выводов. Все это в совокупности влияет на принятие эффективных управленческих решений.

Важная задача здесь — обеспечение единой версии правды данных. Для этого в компании должна быть согласованная методология по расчетам, помогающая бизнес-подразделениям говорить на одном языке. В этом, в том числе, и заключается миссия дирекции данных, которую многие упускают из виду.

CNews: Мы поговорили про работу с данными внутри компании, давайте посмотрим шире. Заместитель Министра строительства и ЖКХ не так давно отмечал, что важно синхронизировать обмен данными между надзором и экспертизой, регионом и муниципалитетами, а также подъем их на федеральный уровень. Вы видите здесь проблему?

Ольга Свитнева: Этот вопрос требует довольно большой проработки, тут тоже нужна методология процесса, чтобы застройщики, которые уже научились работать с данными, обменивались ими с госорганами. Снова встает вопрос единых справочников. Тут, скорее, нужно сначала развивать некий полигон данных, создавать стандарты для застройщиков по обмену данными. Пока же каждый девелопер говорит на своем языке.

CNews: Да, отраслевой полигон данных — говорили, что его планируют создать для обучения специализированных ИИ-моделей. Есть в нем необходимость, как считаете?

Ольга Свитнева: Сама инициатива перспективная, но сложно реализуемая. Чтобы создать единое доверенное хранилище данных, нужно проработать не только его архитектуру, но и зафиксировать конкретные практики и методы. Ценность полигона заключается в том, что там могут накапливаться и формироваться датасеты на основе данных, которые уже есть у государства, а также тех, что государство на определенных условиях будет забирать у бизнеса.

Полигон данных помог бы игрокам строительного рынка ускориться в развитии ИИ, поскольку была бы база для тренировки моделей

А еще данные необходимо постоянно обновлять — т.е. это не разовое мероприятие, а постоянное развитие, требующее инвестиций.

И еще один аспект: качество данных на полигоне должно быть высоким, а, значит, нужно уметь это качество контролировать и поддерживать. С другой стороны, необходимо выстроить систему с точки зрения правовых режимов и доступов к данным. Все допущенные на полигон получают доступ к тому, что там выложено. И, поскольку данные — это нефть, никто не хочет давать возможность конкурентам качать ее просто так, должно быть сотрудничество.

CNews: Одним из ключевых вопросов цифровизации строительной отрасли остается импортозамещение. В какой мере оно затронуло решения для работы с большими данными?

Ольга Свитнева: В 2024 году в России рынок больших данных показал большой рост, появилось очень много новых решений. Сложилась практика, что компании разрабатывают и выводят на рынок собственные кастомизированные продукты, которые можно затачивать под каждую отрасль. Еще один тренд — стремление не просто закрыть узкую функцию, а делать комплексные решения для набора задач.

Все застройщики, в основном, импортозамещали BI, была грандиозная волна миграций — в том числе потому, что бизнесу этот продукт очень понятен, им пользуются ключевые сотрудники компании, хотя, по сути, он является лишь верхушкой айсберга данных.

Что касается импортозамещения в части данных, «Самолета» это коснулось не сильно. Нам тоже нужно было заменить только BI-систему, и в прошлом году я внимательно отбирала решение, которое коррелировало бы с тем архитектурным ландшафтом, что выстроен у нас.

Ольга Свитнева, «Самолет»: Важная задача — обеспечение единой версии правды данных

CNews: А почему не стали делать ее самостоятельно?

Ольга Свитнева: Я люблю считать монетизацию данных и оценивать технологии в контексте их применения. Если по экономическому эффекту видно, что дешевле и выгоднее в долгосрочной перспективе купить продукт, который развит и имеет большую базу, — лучше купить. Особенно учитывая разнообразие зрелых решений на рынке. Так что мы взяли готовый продукт, который максимально соответствовал нашим потребностям и стратегии развития. Сейчас мы переносим всю отчетность на новую систему BIVisiology.

«ИИ помогает нам оптимизировать издержки, которые могут возникнуть из-за риска несоблюдения условий договоров»

CNews: Big Data тесно связана с ИИ. Как «Самолет» использует обе технологии?

Ольга Свитнева: В строительной отрасли искусственный интеллект помогает генерировать дополнительную выгоду и автоматизировать процессы.

Например, мы используем сервис по проверке смет, который позволяет автоматизировать контроль себестоимости строительства за счет поиска превышений в объемах или в стоимости материалов.

В службе «единого окна» у нас применяется чат-бот «Виртуальный координатор», который мгновенно дает ответ проектировщику со ссылкой на нужную статью в корпоративной базе знаний. Он существенно повысил производительность сотрудников за счет сокращения сроков поиска нужной информации.

Одна из важных моделей для нашего бизнеса — модель ковенант, она помогает нам оптимизировать издержки, которые могут возникнуть из-за риска несоблюдения условий договоров. Модель позволяет автоматически распознавать ковенанты из кредитной документации для последующего направления этих ковенант в специализированный реестр и мониторинга.

Нейронную сеть мы применяем, например, для транскрибации звонков в колл-центре. Модель позволяет нам преобразовать аудиозаписи разговоров в текстовый формат, чтобы облегчить анализ содержания звонков и выявлять проблемы, требующих внимания.

Для первичной оценки квартиры клиента по схеме trade in используется модель оценки стоимости жилья на вторичном рынке. Данная модель также находит применение при формировании цены для новых проектов строительства.

CNews: В сентябре прошлого года стало известно, что «Самолет» построил собственную платформу данных. Расскажите подробнее об этом проекте.

Ольга Свитнева: Это, по сути, экосистема сервисов по работе с данными, которая охватывает весь жизненный цикл данных от сбора, обработки и до их конкретного применения в бизнес-процессах. На схеме ниже представлены модули платформы и описано их назначение.

Главная особенность ее в том, что мы сделали выбор в пользу собственной разработки и использования самых современных практик в области данных.

Важной частью всей платформы стала аналитическая часть, которую мы реализовали на подходе LakeHouse, следствием этого был переезд с Hadoop на S3.

CNews: В чем преимущества этого подхода?

Ольга Свитнева: Он позволяет расширять традиционную аналитику данных, совмещая гибкость озер с четкой структурой хранилищ. При этом в озере у нас содержатся качественные, очищенные данные, описанные в каталоге данных.

Парадигма LakeHouse также позволила нам оптимизировать конвейер данных и в рамках одной аналитической платформы обслуживать как запросы к готовым витринам, так и работать напрямую с данными в озере. Поскольку у нас огромное количество источников, порядка 170 мастер-систем, то нам было важно сократить цепочку потока данных, добиться оптимизированного хранения и гибкого масштабирования всего решения.

CNews: Какие еще масштабные цифровые проекты последнего года можно назвать?

Ольга Свитнева: Платформа качества данных — это полноценный продукт, который интегрирован в экосистему и предназначен для устранения ошибок в данных, обеспечения их точности, согласованности, полноты, актуальности, целостности и валидности.

Платформа позволяет запускать автоматизированные тесты по расписанию, есть также непрерывный мониторинг и визуализация всех результатов на дашборде.

Благодаря платформе нам удалось достичь уровня качества данных 97%, что является очень высоким показателем и позволяет нам создавать доверия к данным.

Платформа качества данных

CNews: И заключительный вопрос — с какими сложностями сегодня сталкиваются специалисты Data Science и сами потребители результатов моделей?

Ольга Свитнева: Трудно перевести теоретические идеи на практику, поэтому несмотря на то, что множество новых методик появляется каждый день, их внедрение остается сложной задачей. При этом нам нужны не просто алгоритмы, отрабатывающие данные, но и расширенные наборы качественных данных.

Ряд актуальных проблем связан с этическими вопросами. В частности, это риски приватности и безопасности. Люди каждый день отдают разным компаниям огромное количество данных о себе, и, если мы эту область развиваем, нужно думать об инструментах, которые будут обеспечивать их безопасность.

Наконец, это возможная необъективность результатов. Модель обучается на той информации, которую ей дает на входе владелец. Достоверность, полнота и качество переданной в модель информации будет влиять на ответ. Поскольку в современном мире ИИ генерирует массу контента, мы привыкаем все принимать за истину. А значит, появляется инструмент, с помощью которого можно целенаправленно ввести в заблуждение. Это одна из причин, по которой следует размечать весь контент, генерируемый ИИ.

Человек одарен свободной волей и недюжинными способностями, и нужно уметь мыслить самостоятельно, а не привыкать к быстрым ответам ИИ, тем самым ограничивая свое развитие. На мой взгляд, важно знать, как прийти к результату или выводу посредством собственных умозаключений. В будущем ИИ заменит посредственностей, и это должно мотивировать каждого из нас постоянно тренировать мозг и расширять знания.

Краткая биография

Ольга Свитнева

  • Высшее образование в специализации "Прикладная информатика", степень MBA, сертифицированный профессионал Microsoft, широкая сертификация в ИТ и бизнес-сегментах
  • Занимала пост руководителя данных в компаниях "Сбермегамаркет", Henderson, LeroyMerlin
  • Разрабатывала платформу данных VK Сloud - от идеи до выпуска сервисов по работе с данными
  • Присоединилась к команде «Самолет» в 2023 г.
  • Входит в состав наблюдательного совета Альянса в сфере искусственного интеллекта.

Анжела Патракова