Для российских компаний работа с большими данными уже не выглядит чем-то незнакомым. Многие научились их собирать и обрабатывать, но тех, кто действительно извлекает ценность для бизнеса, пока значительно меньше. О практике применения аналитических инструментов в интервью CNews рассказал Михаил Толмачев, глава центра компетенций по компьютерному зрению практики по анализу данных в EPAM.
CNews: Михаил, понятие data-driven, кажется, окончательно прижилось на рынке. Но даже при этом среди ИТ-специалистов и бизнесменов остаются диссиденты, которые отрицают возможность извлечения практической пользы из больших данных. На чем строятся такие убеждения и чем они опровергаются?
Михаил Толмачев: Основная проблема заключается в том, что механизмы интеграции конкретных аналитических моделей в производственные и бизнес-процессы до конца не отработаны, да и бизнес-потребители не всегда понимают технологические тонкости этих процессов и, как следствие, не видят, какую пользу может принести аналитика.
Негативное отношение может быть связано и с тем, что с данными привыкли работать в отдельных подразделениях, но не во всех бизнес-процессах. Сейчас многие заказчики строят свои дата-платформы, но пока в стране нет компаний, которые бы полностью управлялись с помощью единого унифицированного инструмента. Как правило, компании используют разрозненные системы, данные из которых тяжело сравнивать друг с другом. Даже в финансовом секторе, представители которого очень активно рекламируют свои подходы к работе с данными, на самом деле в процессах используется не так много аналитики, как заявляют.
Еще одна проблема — каждый подобный проект сопряжен с большими трудозатратами. К примеру, мы работаем с крупным ритейлером в США. Только в первый год сотрудничества и только в проекте по внедрению аналитики в онлайн-продажи принимали участие порядка 300 разработчиков.
Если же говорить в целом, то бизнес логично приходит к работе с данными в кейсах, в которых хорошо виден экономический эффект. Для этого важно, чтобы компания ушла от разрозненных проектов с отдельными командами разработчиков и аналитиков, которые что-то делают в своих маленьких персональных песочницах, а результаты работы, наборы данных и аналитические модели никак не переиспользуются другими подразделениями. Для получения эффекта нужен своего рода производственный конвейер дата-проектов — дата-платформа — с унифицированной для разных команд средой разработки, сбора, хранения и обработки данных, едиными инструментами оркестрации, акселераторами и правилами.
В целом, на мой взгляд, сейчас в каждой сфере есть 5–10 компаний, которые являются лидерами по внедрению дата-продуктов, под которыми следует понимать решение на основе данных, интегрированное в бизнес-процессы и с отслеживаемым жизненным циклом.
CNews: Какова логика построения аналитических систем на стороне клиентов?
Михаил Толмачев: На первом этапе важно провести обследование текущего состояния, понять общий уровень аналитической зрелости, сформировать видение целевых продуктов и платформы. Довольно часто для начала используется дескриптивная аналитика — мы смотрим в прошлое. Для эффективного управления жизненным циклом аналитических продуктов формируется дата-платформа, которая даст возможность собирать, обрабатывать и анализировать информацию из различных систем, позволит получить комплексное представление о том, что, например, происходило в производственных процессах, каким был расход материалов на выпуск продукции и т.д.
Второй шаг — добавление инструментов предиктивной аналитики. Имея данные о прошлом компании, проанализировав те или иные аспекты ее функционирования, мы можем разрабатывать аналитические модели, в том числе на основе искусственного интеллекта, для прогнозирования будущих событий. Например, какой объем материалов потребуется в следующем квартале, что позволит оптимизировать оборотный капитал.
CNews: Какие технологические преобразования требуются компаниям, которые хотят извлекать больше ценности из больших данных? Какие решения EPAM могут помочь им в этом?
Михаил Толмачев: Самое главное — заинтересованность ключевых лиц и участников производственного процесса, начиная с линейного персонала и заканчивая топ-менеджером подразделения. Только в таком случае программа трансформации будет успешной. EPAM помогает клиентам двигаться в этом направлении, оказывает консалтинговые услуги, помогает запускать изменения внутри, проводит обучающие тренинги.
Перед проектированием продукта мы собираем обратную связь от всех заинтересованных лиц в части общего видения создаваемого инструмента. Сам проект запускается достаточно быстро: разработав более 100 платформ по управлению данными для клиентов различного масштаба и из различных индустрий, мы накопили хороший опыт и отработали технологии, которые помогают ускорить сроки и минимизировать риски. При этом, конечно, подходы со временем меняются. Средний цикл жизни технологии — от 3 до 5 лет, и именно поэтому на рынке нет единого устоявшегося продукта, который мог бы закрыть все потребности бизнеса.
Я бы хотел акцентировать внимание еще на одной детали: всегда необходимо учитывать тенденцию к построению инфраструктуры в облаках. Разворачивать сервисы при таком формате достаточно дорого. Как следствие, когда возникает необходимость проверить какую-то аналитическую гипотезу, это приводит к большим трудозатратам на разработку. Для успешного внедрения тех или иных инициатив нужно менять процессы, работать с людьми, подбирать правильные технологии, которые лучше всего лягут на экосистему компании.
Есть очень хорошая иллюстрация огромного значения для проекта не технологий, а именно людей. На одном производстве используется дорогой компонент, который нужно добавлять в расплав стали. На основе требований к плавке была построена модель, которая учитывала физические и химические процессы, а потом делала вычисления и предсказывала расход компонента, а также рекомендовала оптимальный объем, который нужно добавлять рабочим. Экономия от реализации этой идеи должна была составить сотни млн в год. Но в итоге: технологу поставили компьютер, он пылится в углу, а сотрудник продолжает добавлять материал, основываясь на своем опыте, потому что ему про никто ничего не рассказал про методику процесса, он не понимает, что ему делать с компьютером. А бизнес не получает экономический эффект, ради которого затевался проект.
CNews: Раньше считалось, что большие данные — удел исключительно гигантов рынка. Можно ли говорить о том, что СМБ тоже приходит на этот рынок? В каких ситуациях ему могут быть полезны решения, так или иначе связанные с большими данными?
Михаил Толмачев: У представителей малого бизнеса просто может не быть того объема данных, при котором имеет смысл разрабатывать единую дата-платформу и собственные дата-решения — это дорогостоящие проекты и возврата инвестиций от них не будет, масштаб бизнеса не тот. Внедрение готовых аналитических приложений поможет, к примеру, предсказать продажи, решить, какую цену установить на тот или иной товар, применять или не применять скидки. Полезной может оказаться замена call-центра на роботизацию и внедрение голосовых систем для общения с клиентами. Масштабные проекты в сфере данных — пока все-таки прерогатива крупных компаний, с большим и сложным бизнесом, распределенной структурой, большим количеством контрагентов и тысячами клиентов.
CNews: EPAM в последнее время реализовал десятки крупных проектов на основе больших данных, в том числе в банковском секторе, на промышленных предприятиях и в других премиальных отраслях. Какую пользу извлекают лидеры рынка из больших данных — понятно. А какие сложности у них возникают? Как их преодолевать?
Михаил Толмачев: Сложностей достаточно много. Базовая — это завышенные ожидания бизнеса от того, что сделает в итоге аналитик. Все ожидают 100-процентной точности предсказаний и работоспособности модели в режиме 24/7. Далекие от ИТ люди полагают, что если что-то поменяется внутри данных, то система сама волшебным образом адаптируется.
На самом деле все не так. Отличный пример — ситуация с пандемией. У ритейла год назад возникло немало вопросов о том, как существовать во время коронавируса, как вести себя с аудиторией, как менять подход к ценообразованию, к маркетингу, рекламе и т.д. Модель поведения людей резко изменилась. И предсказать это было достаточно сложно, и адаптировать аналитические системы — тоже.
Еще одна сложность — качество данных. Когда запускается аналитический проект, оказывается, что бизнес так глубоко никогда не забирался. Каких-то данных может не быть, другие будут запутанны и задублированны. Зачастую на то, чтобы собрать некоторые данные для аналитики, нужно до полугода, и тогда проект рискует затянуться. Со временем сотрудники начинают понимать пользу аналитики, становятся ответственнее и стараются поддерживать чистоту и полноту данных: заполняют все необходимые поля, вносят информацию о контрагентах, проставляют галочки в нужных местах.
CNews: Существует ли какая-то российская специфика у проектов, связанных с большими данными, искусственным интеллектом, машинным обучением и т.д.? В чем она заключается? Чем принципиально отличаются проекты, которые EPAM реализует на Западе и в России?
Михаил Толмачев: Российские компании отличаются от иностранных подходом к экономике. На Западе проще относятся к инвестициям в те или иные направления, если видят в них перспективу; они открыты новым технологиям и не боятся их внедрять. В результате появляются проекты, связанные с, например, использованием роботов для обследования канализационных коллекторов и инспекции трубопроводов или применением дронов для мониторинга каких-либо объектов внутри помещений и за пределами (инвентаризация складов, соблюдение правил безопасности на строительных объектах, мониторинг строительства и т.д.). Заказчики понимают, что за искусственным интеллектом будущее и не боятся экспериментировать, инвестировать в НИОКР, и в результате все окупается сторицей. В России же все хотят начать с малого, но при этом быстро получить результаты, которые с западными клиентами мы получаем через год. Возникают нестыковки.
Также мы наблюдаем большую разницу в организации инфраструктуры. У нас только начинают развиваться отечественные облака, компании заходят в них пока не так массово, как на Западе. Многие иностранные ИТ-подразделения поняли, что обслуживать собственный парк серверных мощностей — большая головная боль. Гораздо проще покупать виртуальные ресурсы у ИТ-гигантов, которые уже научились обслуживать масштабный облачный кластер.
CNews: Можете ли вы рассказать о наиболее масштабных кейсах, реализованных вами в странах Запада и в России за последний год?
Михаил Толмачев: Для крупной нефтяной компании в США мы реализовали интересную программу трансформации. Восемь лет назад была запущена разработка платформы, на которой затем были развернуты порядка 60 различных приложений, которые способны предсказывать различные параметры, связанные с добычей нефти. Кроме того, компания использует буровые платформы в море, поэтому была необходимость еще и в оптимизации транспортных маршрутов и реализации специализированных решений для ремонта. Под эти задачи была создана единая среда для технологов, бизнес-пользователей, аналитиков и разработчиков, где собирались структурированные данные из различных систем источников (WellView, SAP и т.д.), неструктурированные (Excel, PDF) от всех подразделений и организаций, входящих в группу.
CNews: Одно из наиболее интересных с технологической позиции направление применения больших данных — это компьютерное зрение. Достигла ли эта технология пика своей зрелости?
Михаил Толмачев: Я думаю, она находится на прикладном пике, потому что новые архитектуры появляющихся сегодня нейросетей, конечно, задачи решают лучше, но кардинально нового ничего в себе не несут. За последние 5 лет революции в мейнстрим-направлении (детекция, сегментация, классификация и тп) не произошло. Есть прорывы в восстановлении 3D-объектов — например, из фотографий квартиры можно получить ее 3D-модель, а также в дипфейках и виртуальных аватарах.
Основной драйвер развития компьютерного зрения — увеличение объема данных, сгенерированных мобильными устройствами. Например, Instagram — источник и самое большое хранилище человеческих данных о том, как выглядит мир. Вычислительные мощности стали более дешевыми, технологии и данные доступными, и это оказывает положительное влияние на возможность создания моделей компьютерного зрения, заточенных под определенный процесс.
Сейчас мы разрабатываем уникальное приложение с использованием компьютерного зрения. Представьте картину: в квартире сидит девушка, листает журнал и видит там симпатичный топ и интересный макияж на фотомодели. Девушка делает фотографию, и нейронная сеть приложения понимает, какого цвета на модели тушь, тени, помада, тональный крем, какие использованы аксессуары. Далее ПО находит наиболее близкие товары в продуктовом ассортименте нашего клиента и предлагает девушке примерить это на себя. Девушка нажимает кнопку «примерить» и в режиме реального времени на своем смартфоне, смотря во фронтальную камеру, может все это увидеть на себе. После этого можно заказать готовый комплект с доставкой на дом. В будущем будет возможна примерка в движении, виртуальная одежда научится реагировать на положение тела. Все это приближает нас к эпохе умных интернет-покупок.
Компьютерному зрению находят применение на производствах, при обработке документов, для извлечения знаний. Например, мы делали проект для крупной компании, которая строит нефтеперерабатывающие заводы. У них за 60 лет накопилось невероятное количество чертежей. Мы для них сделали решение, которое позволяет найти на чертеже различные обозначения, идентифицировать схемы, найти внутри этих схем все типы инженерных объектов, вынести их в цифровой формат, чтобы в дальнейшем гораздо быстрее и точнее формировать заказ на закупку всех компонентов, которые потребуются при строительстве нового объекта. Еще один пример — распознавание количества единиц продукции в большой партии (например, количество металлических листов в пачке), когда пропадает необходимость в ручном пересчете, поскольку система обеспечивает точность подсчета больше 95%. Количество реализованных проектов, связанных с компьютерным зрением, растет во многих сферах деятельности. Это как раз пример кейсов, когда эффект будет виден и получен достаточно быстро. Конечно, при правильном подходе и участии всех заинтересованных лиц.