Спецпроекты

На страницу обзора
Антон Смирнов, Cloud: Магия ИИ начинается там, где серверы объединяются в «команды»

Что сегодня умеют суперкомпьютеры? Насколько востребованы в бизнесе решения, основанные на ИИ или ML? На эти и другие вопросы отвечает Антон Смирнов, продуктовый лидер направления AI Cloud, ответственный в том числе за развитие платформы для полного цикла машинного обучения ML Space в компании Cloud.

Антон СмирновCloud

CNews: Какую роль сегодня играют суперкомпьютеры в решении задач AI/ML? Каковы перспективы?

Антон Смирнов: Суперкомпьютеры, если абстрагироваться от наукоёмких терминов, это вычислительные машины для обработки информации не последовательно, а параллельно. Вся магия AI начинается там, где сервера (не важно, CPU или GPU) объединяются» в «команды», чтобы решить общую задачу. В бизнесе время = деньги, поэтому скорость и вариативность вычислений невероятно важна. А за счет того, что с суперкомпьютером можно разбить задачу на кусочки и решить каждый из этих кусочков одновременно, скорости тестирования гипотез и вывода на рынок новых продуктов возрастают в разы. Поэтому я бы сказал, что роль суперкомпьютеров в решении задач AI/ML ведущая и в ближайшее время эта ситуация не изменится.

CNews: Спустя два года после запуска своего первого суперкомпьютера Christofari, появился второй суперкомпьютер — Christofari Neo. Для чего потребовалась новая система? Почему недостаточно было одного суперкомпьютера?

Антон Смирнов: Необходимость постройки второго Christofari стала очевидна после того, как у нас появились первые постоянные клиенты. С ростом пользовательской базы нагрузка на суперкомпьютер возросла. Кроме того, появились новые технологии, которые позволяли запускать сложные задачи обучения в несколько раз быстрее. Для этого нужны были дополнительные мощности на базе следующего поколения графических процессоров, и мы их создали.

CNews: Каковы особенности Christofari Neo? Какие задачи он способен решать?

Антон Смирнов: Наши суперкомпьютеры способны решать любые задачи. Среди кейсов наших клиентов тому масса подтверждений. Обычно самыми «тяжелыми» в машинном обучении считаются «трансформеры» — чаще всего это модели для распознавания образов, генерации изображений и работы с текстом на естественном языке, именно такие модели лежат в основе онлайн-переводчиков, нейрописателей и т.п. Так, наш клиент «Работа.ру» хотел улучшить на своем сервисе поиск по вакансиям и оптимизировать рекомендательную систему. Для этого требовалось дообучить тяжелый опенсорсный трансформер RoBERTa. На собственной инфраструктуре это бы заняло у них больше 140 дней, с Christofari Neo обошлось в 15 дней, time-to-market решения сократился почти в 10 раз.

Антон Смирнов, AI Cloud: Необходимость постройки второго Christofari стала очевидна после того, как у нас появились первые постоянные клиенты

Есть и другие примеры. В частности, бренд MODIS с помощью мощностей суперкомпьютера и платформы ML Space стал прогнозировать спрос (вплоть до модели, цвета и размера одежды!) в 143 магазинах по всей России до 92% точнее. Так что возможности суперкомпьютеров ограничены только фантазией заказчиков.

CNews: Клиенты имеют возможность использовать суперкомпьютер Christofari для работы с любыми — биометрическими, специальными, общедоступными и иными — категориями персональных данных. Соответствует ли такая работа с персональными данными требованиям российских регуляторов?

Антон Смирнов: Разумеется. В России существует закон 152 ФЗ «О персональных данных», а его соблюдение регулируется тремя основными структурами: Роскомнадзором, ФСТЭК и, если деятельность компании связана с разработкой, производством, реализацией и эксплуатацией шифровальных средств защиты информации, ФСБ.

Провайдер облачных услуг при хранении персональных данных в облаке должен получить лицензию ФСБ и аттестат ФСТЭК. Если помимо хранения персональных данных, выполняются услуги передачи данных или телематические услуги (услуги связи по передаче данных), то также необходимо получить лицензию Минкомсвязи.

Важно отметить, что у нас все необходимые сертификаты получены. Более того, Cloud предоставляет наивысший уровень защиты персональных данных (УЗ-1). Это значит, что хранить данные у нас можно любые и в любом объеме.

CNews: Хватает ли в России специалистов по данным, способных анализировать большие данные и строить прогнозные модели?

Антон Смирнов: Этот вопрос сложнее, чем может показаться на первый взгляд. С одной стороны, специалистов по работе с данными не хватает не то что в России — во всем мире. Наш рынок всегда был отличной кузницей ИТ-кадров, и огромный массив этих кадров после известных событий переместился за рубеж. Однако, это не значит, что стоит сокрушаться, что дата-аналитиков и дата-сайентистов теперь не найти. Думаю, регресса индустрии работы с данными в этой связи не планируется, и вот почему:

  • Как правило, пул задач, предъявляемый к дата-сайентистам, аналитикам MLOps-инженерам в компаниях, не связанных с ИТ и финтехом исчерпаем, соответственно, для некоторых предприятий держать в штате подобных специалистов просто нет смысла, проще привлекать со стороны. Такой подход позволяет с одной стороны сэкономить, а с другой не отстать от рынка.
  • Инструменты работы с данными, в том числе с Big Data развились до таких высот, что после разового внедрения и небольшой подготовки пользоваться ими могут и обыкновенные аналитики, у наших клиентов были такие примеры.
  • Физический «исход» ряда представителей ИТ-сферы из России совершенно не значит разрыв экономических и рабочих связей. Многие продолжают сотрудничать со своими «домашними» компаниями как внешние подрядчики.
  • Свято место пусто не бывает. AI сегодня одна из самых перспективных ниш для построения карьеры. Кроме того, есть надежда, что совсем скоро подрастет молодая смена и профессия дата-аналитика, инженера или сайентиста станет такой же распространенной как бухгалтер или инженер.

Пользуясь случаем, хотел бы обратиться к аудитории и напомнить, что если среди вас есть те, кто хотел бы продолжать развитие в направлении ML и AI, заглядывайте в раздел вакансий на сайте Cloud — мы будем рады новым людям. У нас большие планы по развитию продукта. Для профессионалов в AI возможность присоединиться к нам может стать хорошим шансом продолжить свое развитие и двигаться в команде-лидере.

CNews: Какими решениями пользовались DS-специалисты компаний раньше и чем, с учетом санкций и импортозамещения, они пользуются сейчас? Как санкции повлияли на прикладное ПО в сфере AI & ML?

Антон Смирнов: Ранее самыми популярными решениями для работы с машинным обучением в облаках были DataBricks, Sagemaker от Amazon Web Services, ML Studio Microsoft Azure, а в on-prem, например, Cloudera Data Science Workbench. С введением санкций в взаимодействии с каждым из провайдеров появились какие-то трудности: кто-то не принимает оплату с российских карт, кто-то не регистрирует новых пользователей из РФ, те, чья доля рынка в России была невелика, и вовсе отказались от обслуживания клиентов.

Соответственно, значительная часть пользователей облачных сервисов для машинного обучения переместилась на отечественные решения, в том числе нашу платформу ML Space.

CNews: На базе суперкомпьютеров Christofari и Christofari Neo работает платформа для ML-разработки полного цикла ML Space. Не могли бы вы рассказать об этом подробнее? Кто пользуется сервисами и какими именно? Какие проблемы решаются с их помощью?

Антон Смирнов: Я бы даже сказал, что ML Space и Christofari — это две стороны одной медали: «железная» и «софтовая». С самого начала запуска наших суперкомпьютеров мы понимали, что хотим не просто давать клиентам возможность запускать распределенное обучение на нашей инфраструктуре, но и создать полноценную платформу для машинного обучения, которая бы стала для ML-разработчиков комфортной средой повседневной работы. Вся «фишка» нашей платформы как раз в том, что для создания AI-продукта, вам не нужны отдельные сервисы: у вас есть полный простор для работы в едином окне. Это как швейцарский нож для каждого участника процесса создания AI-сервиса, ведь там есть такие необходимые и привычные инструменты как Jupyter Notebook, PyTorch, ML Flow, TensorBoard, запуск обучения моделей на SPARK и прочее. Вы можете не только импортировать данные, обработать их, обучить и развернуть модель, вам доступно использование наработок других пользователей или монетизация своих через наши маркетплейсы.

CNews: Какая роль отводится on-premise платформе ML Space Private?

Антон Смирнов: ML Space Private — это особое решение для компаний, которые либо располагают собственной инфраструктурой для машинного обучения, либо нуждаются в решении для работы с особо чувствительными данными.

Все мы понимаем, что простое наличие GPU-ресурсов не решает проблему запуска распределенных задач, требуется долгая и кропотливая настройка, которая занимает иногда не один месяц. Поскольку мы этот путь уже прошли, мы готовы предоставить готовое решение в формате дистрибутива, который устанавливается локально на инфраструктуру заказчика и превращает его ресурсы в удобную платформу для машинного обучения с доступом через дружелюбный интерфейс.

Далее заказчик вправе сам решать, в каком формате вести работу: полностью локально или в гибридном режиме, отдавая на обучение в наше облако только то, что чувствительных данных не содержит, но требует больших скоростей обучения. Пока мы наблюдаем, что такое решение востребовано среди госзаказчиков, промышленных, добывающих, страховых и транспортных компаний. Кстати, оно уже внесено в Единый реестр российского ПО.

CNews: В прошлом году была разработана платформа DS Works, позволяющая компаниям проводить среди специалистов по работе с данными чемпионаты для решения бизнес-задач. Проводятся ли такие соревнования?

Антон Смирнов: Действительно, такое решение есть, и оно тоже пользуется спросом. Сейчас чемпионаты на платформе DSWorks проводятся несколько раз в год. Основной зарубежный «конкурент», решение которого мы замещаем, это платформа Kaggle. Мы не просто предоставляем среду и инфраструктуру для хакатонов, а полностью берем на себя организацию процесса от помощи в формировании задач до гибкой валидации решений участников. Именно поэтому мы видим всплеск интереса к этому решению.

CNews: Насколько сейчас актуально (массово) востребовано в реальном бизнесе или в госсекторе сервисы, основанные на ИИ? Что работает?

Антон Смирнов: Вокруг нейросетей постоянно присутствует ореол «хайпа», и как мне кажется, зря. Не в том смысле, что это что-то невыдающееся, а в том, что вы даже не представляете, насколько хорошо сейчас распространены во всех индустриях продукты и сервисы на основе AI. На звонки горячих линий госорганизаций и банков уже давно отвечают голосовые чат-боты. Металлургические предприятия используют AI, чтобы определять дефекты на поверхности металла и снижать себестоимость производства. Работа бухгалтерий множества организаций автоматизируется за счет RPA, в основе которой очень часто лежит ML, добывающие предприятия повышают скорость и точность геологоразведки, даже творческие профессии сегодня не обходятся без AI-помощников, яркий тому пример — сервисы «Рерайтер» и «Суммаризатор», которые были созданы с помощью ML Space. Даже такая, казалось бы, консервативная сфера, как сельское хозяйство успешно применяет инструменты на базе ИИ. Например, совсем недавно мы разрабатывали для одного производителя средств защиты растений модель, прогнозирующую валовый сбор озимой и яровой пшеницы. Раньше для этого требовалось время агрономов, а точность прогноза не превышала 60%, теперь точность составляет более 90%. Так что сейчас AI работает повсюду — от документооборота до управления цепочками поставок, и если бы он не демонстрировал эффективность в цифрах, такого взрывного роста именно на стадии использования не происходило бы.

CNews: Как вы оцениваете объем рынка ИИ в России? (объем, доля, проникновение)

Антон Смирнов: Конечно же по миру таких данных больше, но попробую кратко обозначить, что мы видим на рынке. Согласно последним данным альманаха «Искусственный интеллект» от МФТИ, общий объем рынка AI в России в 2022 году составляет 550 млрд рублей, при этом объем инвестиций незначительно превышает 30 млрд рублей. Уровень проникновения ИИ-решений в российских компаниях ежегодно растет. Более 85% крупных компаний уже используют технологии ИИ. Более того — они уже перешли от этапа пилотирования к активному внедрению проектов с использованием технологий искусственного интеллекта, более 70% из них получают финансовые эффекты от внедрения ИИ-решений. В сегменте B2C чат-боты, персонализация предложений и речевая аналитика занимают лидирующие позиции, в то время как в B2B популярнее всего решения по предиктивному обслуживанию оборудования и поддержке принятия решений. Самая прогрессивная отрасль по части внедрения AI — ритейл. Основным отечественным сегментом рынка ИИ остается анализ данных (61,2%), сегмент NLP — на втором месте (32,8%). Тем не менее, и для России, и для всего мира характерна общая проблема: 87% от всех начатых AI-проектов не доходят до стадии продакшна.

CNews: Как вы оцениваете свою позицию на рынке решений для ИИ?

Антон Смирнов: Мы рассматриваем себя как одного из крупнейших игроков на этом рынке, при этом фиксируем значительный ежегодный рост выручки в данном направлении.

CNews: Работа с ML-моделями — это дорого? Насколько это доступно для широких слоев?

Антон Смирнов: Все зависит от подхода. Сегодня AI-решения доступны в любом ценовом сегменте.

Если организовывать вычислительную инфраструктуру на своей стороне, самостоятельно заниматься всеми программными надстройками и держать в штате соответствующих специалистов — то да, ML это дорого. Такое могут себе позволить гиганты ИТ-рынка, банки, телекоммуникационные, промышленные и добывающие компании.

Пользоваться облачными сервисами, потреблять ровно столько сколько нужно для текущих задач и оплачивать по мере использования — это минимальные затраты и ускорение выхода на рынок вашего продукта. Именно такой вариант выбирает большинство клиентов платформы ML Space.

Краткая биография

Антон Смирнов

Бывают случаи, когда бюджет на проект строго ограничен, своих специалистов нет, а важность продукта для бизнеса такова, что права на ошибку просто нет. В таких случаях имеет смысл организовать чемпионат и получить предсказуемо хорошее решение без риска впасть в бесконечный цикл доделок. С этим поможет наша соревновательная платформа DSWorks.

В случаях, когда бюджет относительно гибкий, но специалистов нет, требуются глубокая кастомизация, очистка данных и понимание бизнеса, можно подключить к решению AI Consulting. Здесь вам под ключ за считанные недели разработают AI-сервис, который продемонстрирует явную экономическую эффективность.

Еще есть вариант найти готовый сервис, удовлетворяющий задачам вашего бизнеса, на нашем маркетплейсе. Например, вы ритейлер и хотите знать какую цену ваши конкуренты ставят на те же товары. Приобретаете сервис Product Analyzer, фотографируете полки конкурента и готово — у вас перечень товаров с ценниками.

CNews: Что вы можете предложить стартапам / ИИ-разработчикам?

Антон Смирнов: Удобную среду для машинного обучения, выход на широкий рынок наших заказчиков и возможности для монетизации своих AI-сервисов.

CNews: Внедрение ML в кампаниях — какие существуют барьеры и драйверы?

Антон Смирнов: Главный драйвер — цифровизация. Что касается барьеров, то сегодня ими выступают:

  • Недостаток специалистов и экспертных знаний в ML.
  • Нехватка бюджетов на внедрение ML проектов.
  • Отсутствие необходимой для внедрения ML-проектов IT-инфраструктуры и программного обеспечения.
  • Целого ряда иных проблем, которые возникают при переходе от эксперимента к внедрению, начиная от готовности процессов, людей.

CNews: Как обеспечивается безопасность данных в ИИ/ML-проектах?

Антон Смирнов: Платформа ML Space обеспечивает полную конфиденциальность данных с надежной защитой от утечек, встраивается в ИБ-ландшафт компании и повышает уровень ее «ML-зрелости».

ML Space надежно защищает персональные данные, что подтверждается наличием аттестата соответствия 152 ФЗ . Он выдается контролирующими органами, и подтверждает, что инфраструктура облака соответствует приказам ФСТЭК, а информация надежно защищена.

Кроме того, платформа ML Space аттестована в соответствии с первым уровнем защищенности (УЗ-1). Это значит, что заказчики могут безопасно создавать и развертывать продукты, осуществляющие обработку любых персональных данных.

Здесь очень важно сказать о том, что как бы хорошо не были защищены данные в облаке, 50% ответственности за их безопасность лежит на заказчике. В подавляющем большинстве случаев причина последних громких сливов данных в недобросовестных действиях сотрудников внутри компаний-заказчиков, у которых, благодаря их служебному положению уже был доступ к данным изнутри. Но даже это можно профилактировать с помощью особых регламентов информационной безопасности. У наших коллег на платформах Advanced и Enterprise даже есть соответствующие услуги.