Спецпроекты

На страницу обзора
Евгений Мартынов, «Рег.облако»: В Россию приходит мировой тренд  —  доступ к ИИ за токены

Российский рынок инфраструктуры для искусственного интеллекта переживает структурные изменения. Спрос на мощные графические ускорители смещается с обучения моделей в сторону инференса — их эксплуатации. Компании всё чаще рассматривают собственные вычислительные контуры как способ контролировать данные и снижать риски, связанные с использованием внешних программных интерфейсов приложений (API). В интервью CNews эксперт отрасли, директор по информационным технологиям «Рег.облако» Евгений Мартынов объясняет, почему конфигурации на базе Nvidia стали наиболее востребованными, какие открытые модели показывают результаты, сопоставимые с проприетарными, и как гибкие схемы оплаты влияют на экономику проектов. Отдельное внимание уделено требованиям регуляторов, которые делают локальную инфраструктуру обязательной для ряда отраслей.

Евгений Мартынов«Рег.облако»

CNews: Евгений, почему сейчас особенно востребованы конфигурации на базе Nvidia H100 и H200? Для каких задач бизнесу не хватает мощностей обычных графических ускорителей?

Евгений Мартынов: Мы наблюдаем взрывной рост генеративного искусственного интеллекта, особенно больших языковых моделей с миллиардами параметров и расширенным контекстом. Модели, которые могут «думать», делать выводы и рассуждать, а также агентный искусственный интеллект требуют принципиально иного уровня производительности. Карты H100 и H200, а также недавно анонсированные B200 и B300 обладают высокой производительностью и возможностью объединения памяти в единый аппаратный ускоритель. Это позволяет запускать самые большие модели. В России к концу 2025 года H200 стали наиболее популярными. По нашей воронке в «Рег.облаке» спрос на эти карты вырос в десятки раз. B200 и B300 тоже вызывают интерес, но пока не все клиенты готовы платить за их уровень, к тому же на рынке не всегда есть предложение. Сегодня рынок сформировался вокруг H200, а дальше мы будем наблюдать, как будут распространяться B200 и B300.

Евгений Мартынов, «Рег.облако»: Мы наблюдаем взрывной рост генеративного искусственного интеллекта

CNews: Раньше считалось, что мощные графические ускорители нужны в основном для обучения моделей. Сейчас спрос смещается в сторону инференса (Прим. ред.: Инференс это процесс использования обученной модели искусственного интеллекта или нейросети для обработки реальных данных и получения предсказаний). С чем связана такая трансформация?

Евгений Мартынов: Обучение, предварительная тренировка (претренинг) и тонкая настройка никуда не делись, но инференс вышел на первый план и стал развиваться очень динамично. Во‑первых, количество качественных открытых моделей, которые можно запустить у себя, значительно выросло. Во‑вторых, увеличился контекст, который модели могут обрабатывать, а чем больше контекста, тем больше токенов и вычислений требуется. Кроме того, современные модели не просто отвечают по векторным шаблонам, они «рассуждают», что тоже увеличивает потребление ресурсов. Еще один драйвер — коммерческая составляющая. Появились гибкие схемы аренды на день или час, а также оплата за токены, что делает инференс более доступным.

Это важно, потому что инференс является ядром любого процесса, будь это программирование без написания кода (вайбкодинг) или мультимодальная обработка. Любой подобный процесс требует самой модели инференса. Сейчас модели такого уровня, в том числе запускаемые локально у себя в инфраструктуре — позволяют решать разные задачи. Мы в «Рег.облаке» предлагаем локальные инференсы для задач написания кода, проверки документации, генерации изображений, работы с текстом и поиску по базе знаний.

CNews: Какие открытые модели сегодня эффективно работают на таких конфигурациях и показывают результаты, сопоставимые с проприетарными?

Евгений Мартынов: Среди топовых открытых моделей с сотнями миллиардов параметров можно назвать DeepSeek V3.2 (670–680 млрд параметров), она хорошо подходит для агентских схем и математических задач. GLM‑5 (около 750 млрд параметров) близка к Claude Opus, у нее хороший баланс качества и низкий уровень галлюцинаций, ее активно используют для кодинга. Qwen 3.5 (около 400 млрд параметров) — мультимодальная модель, решающая задачи с графикой, аудио и текстом. Все эти модели требуют не одной видеокарты, а серверов, объединяющих память. Для одной карты может подойти GPT‑OSS на 120 млрд параметров. Она немного уступает по качеству, но проще в развертывании и дешевле. Также применяются комбинированные подходы: на входе используют арбитражную модель (router), которая решает какой большой языковой моделью (LLM) обрабатывать запрос. Это позволяет сравнивать вывод разных моделей и параллельно выполнять задачи на одних и тех же сборках.

CNews: Насколько развитие инференс-стеков упростило жизнь разработчикам?

Евгений Мартынов: Сейчас существуют стандартизованные инференс-движки, которые дают единый интерфейс, совместимый с программным интерфейсом приложения (API) OpenAI. Это позволяет разработчикам не изобретать велосипед, а сосредоточиться на решении прикладных задач. Развернуть инференс может и системный администратор и сам разработчик за 10–15 минут, а многие провайдеры уже предлагают его как сервис в несколько кликов. Ручные сборки становятся уделом лишь тех, кому нужен глубокий кастомизированный функционал. «Рег.облако» в свою очередь предлагает как подготовленные окружения под дальнейшую самостоятельную установку моделей, так и непосредственное конечное решение аренды инференса конкретной модели на базе vLLM (Прим.ред.: virtual Large Language Model — виртуальная большая языковая модель, открытый алгоритм для вывода больших языковых моделей. Изначально спроектирован для высокой производительности в рабочей среде) в режиме самообслуживания. По запросу готовы также предоставлять гибкие частные варианты подобных установок на любых доступных графических ускорителях, даже на территории заказчика по модели «аппаратное обеспечение как услуга» (HaaS).

CNews: Какие типичные задачи бизнеса сегодня решаются через инференс на собственных мощностях?

Евгений Мартынов: Можно выделить ряд популярных сценариев. Во‑первых, корпоративные внутренние ассистенты или базы знаний с подключенным контентом через технологию соединения большой языковой модели с базой данных (RAG, Retrieval-Augmented Generation). Во‑вторых, генерация кода — это дает быстрый и измеримый результат. В‑третьих, работа с документами: анализ входящей корреспонденции, суммаризация, отслеживание изменений в законодательстве. Также стоит отметить чат-боты, аналитические процессы и основанные на данных (data-driven) подходы с интегрированными в рабочий цикл (pipeline) думающими и принимающими решения моделями. В довершение списка, упомяну средства для нормализации и валидации данных.

При этом мы видим, что бизнесу всё чаще нужны не отдельные сценарии, а единая среда, где ИИ встроен в повседневные процессы. Поэтому, например, в «Рег.облаке» мы развиваем ИИ-ассистента, который работает поверх корпоративной инфраструктуры и позволяет использовать возможности генеративных моделей сразу в разных бизнес-сервисах — от системы управления взаимоотношениями с клиентами (CRM) и поддержки до технологий визуализации данных (BI) и внутренних баз знаний.

Такой ассистент помогает не только обрабатывать документы или генерировать тексты и код, но и, например, готовить аналитические сводки, оценивать риски, ускорять обработку клиентских запросов. Важный момент — он разворачивается в изолированной среде компании, с контролем доступа к данным, и может использовать как встроенные, так и внешние модели, включая решения с открытым кодом (open-source).

CNews: Технически как выстраивается интеграция?

Евгений Мартынов: Базовый уровень — сам инференс, работающий на графических ускорителях. Следующий слой — оркестрация и интеграция, часто с использованием инструментов без написания кода (no-code). Они позволяют строить работу, обогащать модели контентом, связывать различные источники и реализовывать интеграции. Над этим — интерфейсы: чат-боты, мессенджеры, вэб (Web UI). И отдельным «срезом» — агентные и мультиагентные сценарии, которые станут трендом в 2026 году.

CNews: Доверие к собственной инфраструктуре и контроль над данными — одна из причин перехода на локальный инференс. Какие риски возникают при использовании публичных API?

Евгений Мартынов: Первый риск — конфиденциальность. Нет гарантий, что данные, которые отправлены в интернет, не будут использованы для обучения моделей или не всплывут позднее. Такие истории, к сожалению, не редкость. Например, в марте 2023 года в ChatGPT произошла утечка платежных данных и истории чатов. А в Microsoft Copilot известен случай некорректного показа конфиденциальной почты. Хотя данные тогда и не ушли в интернет, но стали доступны нецелевым участникам облака. Второй риск — регуляторный. Обработка персональных данных должна вестись на территории России с соблюдением требований регулятора. Зарубежные API этим требованиям не соответствуют. Кроме того, есть санкционные риски: западные сервисы могут в любой момент отказать в доступе. И даже внутри страны может возникнуть недоступность из-за действий регуляторов. Для компаний, которым нужна надежность 24/7, практически не остается альтернативы, кроме российских подрядчиков и собственной инфраструктуры.

Сейчас российские провайдеры делают особый упор на защиту данных в своих ИИ-решениях. Мы, например, видим устойчивый спрос на полностью изолированные сценарии, поэтому вывели на рынок приватного ИИ-ассистента для работы с конфиденциальными данными. Он разворачивается в контуре заказчика — либо на локальной инфраструктуре (on-premise), либо в выделенном сегменте дата-центра — что исключает передачу информации во внешние среды. По сути, компания получает все преимущества генеративного ИИ, но с полным контролем над инфраструктурой, доступами и данными.

CNews: Для каких отраслей требование контроля и перехода на собственные решения является критическим?

Евгений Мартынов: Самый очевидный сегмент — госсектор и компании с государственным участием. Далее — финансовый сектор, где действуют требования Центрального банка. Затем медицина и компании, работающие с врачебной тайной и персональными данными высшего класса. И, конечно, промышленность, энергетика, оборонно-промышленный комплекс и критическая инфраструктура. Но стоит отметить, что важность сохранения конфиденциальных данных актуальна для всех российских компаний в целом. Чувствительную информацию нужно обрабатывать и хранить на соответствующей закону и сертифицированной инфраструктуре во избежание дальнейших критических последствий.

CNews: Как компании выбирают между оплатой за токены и арендой мощностей? В каком случае выгоднее платить за токены?

Евгений Мартынов: Если отбросить ситуации, когда выбор ограничен регуляторикой, то решение зависит от предсказуемости нагрузки. Для минимально жизнеспособного продукта (MVP), тестовых проектов, когда неизвестно, будет ли решение использоваться и сколько токенов потребуется, лучше начинать с модели оплаты за токены. Это дает возможность смоделировать нагрузку и понять, какая производительность нужна, и уже затем переходить к аренде. Если у компании стабильный поток запросов или много проектов, генерирующих большой объем токенов, аренда становится экономически выгоднее. Всегда нужно держать руку на пульсе и сравнивать: сколько токенов вы могли бы получить за фиксированную стоимость аренды сервера.

Краткая биография

Евгений Игоревич Мартынов

  • Директор по информационным технологиям Рег.облака.
  • В 2008 году окончил Московский авиационный институт.
  • В 2007 году начал карьеру в технической поддержке регистратора Р01, затем работал системным администратором хостинга.
  • В 2010 году занял должность начальника отдела системного администрирования хостинга в объединенной компании Hosting Community, в 2013 году сосредоточился на разработке новых хостинговых продуктов и развитии инфраструктуры компании.
  • В 2017 году назначен руководителем департамента эксплуатации АО «РСИЦ».
  • В 2023 году перешел на позицию директора по информационным технологиям Рег.облака.

CNews: Как часто компании комбинируют гибридный подход: прототипирование через программный интерфейс приложения (API), а продуктивную эксплуатацию — на собственной инфраструктуре?

Евгений Мартынов: На зарубежном рынке эта схема стала стандартом. В России пока предложений по оплате за токены немного, а гибридный подход чаще диктуется не экономикой, а регуляторикой, надежностью и доступностью. Многие обкатывают гипотезы в гибридном режиме, а потом затаскивают решение в доверенный контур.

CNews: Если подводить итог: какой набор аргументов вы бы привели ИТ-директору крупной компании, который пока сомневается, разворачивать ли собственный контур инференса или пользоваться готовыми сервисами?

Евгений Мартынов: Готовые сервисы — отличный инструмент для старта, проверки гипотез и экспериментов. Но если компания обрабатывает персональные данные и должна соответствовать требованиям регулятора, а в будущем не хочет утечек и последствий, то при переходе от проверки гипотез обязательно нужно смотреть в сторону инструментов, которые разворачиваются внутри контура компании или в доверенной сертифицированной инфраструктуре, с прозрачным соглашением об уровне предоставляемых услуг (SLA), которое не зависит от трансграничных каналов. В качестве примера таких возможностей, мы уже запустили в «Рег.облаке» собственные инференс-сервисы на базе виртуальных больших языковых моделей (vLLM) в публичном облаке и объединили все ключевые ИИ-механики (оркестрацию, мониторинг, управление моделями и доступом) в единую платформу. Это направление выделено у нас в отдельный фокус развития, и мы последовательно расширяем его функциональность и сценарии применения.

CNews: Какие изменения на рынке графических ускорителей и инфраструктуры вы прогнозируете в ближайшие 1–2 года?

Евгений Мартынов: В России будет распространяться модель оплаты за токены — это мировой тренд, и мы его подхватываем. Не стоит опасаться гибридных сценариев. В будущем все проверки гипотез и предварительные запуски проектов можно будет проверять за токены у облачных провайдеров. «Рег.облако» уже ведет разработку такой модели. Аренда тоже останется эффективной для многих видов нагрузки. Параллельно будет развиваться вариативность: появятся не только карты Nvidia, но и решения Intel, AMD, а затем и специализированные нейрочипы. Это вопрос не одного 2026 года, но тенденция налицо. Стандартные облачные подходы будут эволюционировать: от «голой» инфраструктуры к готовым сервисам с мониторингом и унифицированным интерфейсом. На выходе мы получим решения класса «программное обеспечение как сервис» (SaaS), например, агентов для программирования или системного администрирования, которые работают «из коробки». Для их работы потребуются качественные большие языковые модели и мощные графические ускорители.

Рекламаerid:2W5zFHKZxYZРекламодатель: ООО «РЕГ.РУ»ИНН/ОГРН: 7733568767/1067746613494Сайт: https://www.reg.ru/