Спецпроекты

На страницу обзора
Андрей Телюков, TData: Многие осознали, что зарубежные open-source решения и продукты могут исчезнуть в любой момент

В мае 2024 года ИТ-сообщество узнало, что разработчик Greenplum —Tanzu by Broadcom — принял решение закрыть исходный код продукта. Компании, которые использовали Greenplum при создании хранилищ данных, больше не получат обновления проекта. В новых реалиях компания TData продолжает развивать собственное решение RT.Warehouse. Технический директор TData Андрей Телюков поделился, с чем сталкиваются вендоры и заказчики в эпоху изменений.

Андрей ТелюковTData

«Нашей компанией выполнено одно из крупнейших внедрений GreenPlum в России — хранилище данных в компании «Ростелеком», а также ряд внедрений в других компаниях из различных секторов российской экономики»

CNews: Как вы оцениваете текущее состояние рынка решений для работы с данными в России после закрытия Greenplum?

Андрей Телюков: В России много решений было построено на базе open-source Greenplum, компании делали ставку на развитие своих аналитических хранилищ. Сейчас складывается ситуация, когда крупный бизнес, ориентировавшийся на open-source версию Greenplum, продолжает использовать ее в своих ЦХД, поскольку по ряду характеристик это остается оптимальным выбором, при этом на рынке накоплена большая экспертиза и большое количество кадров, а переход на другие решения требует времени и финансирования без каких-либо новых эффектов для бизнеса.

Скорее всего в ближайшем будущем мы увидим несколько разрозненных форков, которые будут развиваться независимо друг от друга. Мы сейчас ориентируемся на развитие Greenplum 6. Шестая версия остается для нас основным форком, потому что один из наших крупных заказчиков, «Ростелеком», продолжает работать с этой версией. Мы сосредоточены на развитии машинного обучения, обвязки и автоматизации, которые применяются с Greenplum 6.

По нашим прогнозам, в среднесрочной перспективе в России останется такое же разрозненное сообщество пользователей. Часть из них примкнет к развитию Greenplum 7, другие будут рассматривать решения из Китая и пытаться мигрировать на них. Но процесс миграции займет не менее года, поэтому заметные изменения у заказчиков мы сможем наблюдать только в 2026-2027 годах, а скорее даже в ближайшие 5 лет, т.к. многие только закончили или заканчивают миграцию с западных вендоров на GreenPlum и финансово не готовы проводить еще одну миграцию.

Андрей Телюков, TData: В России много решений было построено на базе open-source Greenplum

CNews: Вы сказали, что адаптируете свои продукты. Какие сложности возникают на этом этапе?

Андрей Телюков: Да, мы продолжаем развивать и адаптировать наши продукты. Даже до закрытия Greenplum возникали сложности, касающиеся обеспечения безопасности разработки. При этом здесь понятие безопасности заключается не в уязвимости или проверке исходного кода. Речь идет о более глобальной задаче: необходимо выстроить четкий и понятный процесс работы над продуктом и обеспечить его независимость от наличия или отсутствия open-source проектов. Процесс включает в себя создание собственного бэклога, разработку плана развития и синхронизацию с потенциальными и существующими заказчиками через их запросы. Среди сложностей, которые мы наблюдаем и решаем, можно выделить организацию репликации данных для обеспечения независимых контуров Greenplum, которые позволят быстро и эффективно перемещать данные между собой. Существуют два подхода: репликация между кластерами и Dual ETL. В первом случае данные перемещаются между кластерами, и мы получаем идентичные кластеры, во втором — загрузка данных выстраивается таким образом, чтобы мы на этапе загрузки получали одинаковое состояние кластеров. В своей работе мы реализуем оба.

Кроме того, мы понимаем, что вопросы безопасности и контроля над данными в последнее время стоят особенно остро. Поэтому мы внесли ряд доработок по улучшению качества отслеживания состояния пользователей в Greenplum, нотификации администраторов о действиях пользователей в нашей сборке RT.Warehouse и проверке доступа к данным в продакшн-системе.

CNews: Расскажите о примерах успешного внедрения RT.Warehouse в этом году.

Андрей Телюков: В этом году у нас было несколько внедрений, и еще несколько находятся на стадии завершения сделки. Одним из наиболее ярких проектов стало сотрудничество с компанией Fplus. Мы достаточно быстро и гибко выполнили требования заказчика, хотя они были не совсем типичными для нас, особенно в части поддержки операционной системы. Так как Fplus уже использовал open-source сборку Greenplum, то была накоплена необходимая экспертиза по разворачиванию ПО и миграции с одной сборки на другую, поэтому основная часть работ была выполнена силами Fplus в короткие сроки, минимальными усилиями и без остановки критичных процессов, а мы оказали им всестороннюю поддержку в этом процессе.

CNews: Что за нетипичные требования?

Андрей Телюков: Исторически сложилось, что основной операционной системой, для которой мы проводили тестирование по поддержке большинства функций, была «Ред ОС». Именно она была стандартом для компании «Ростелеком», где впервые было внедрено наше решение. Fplus запросила поддержку операционной системы ALT Linux, и мы довольно быстро справились с этой задачей. Сейчас, помимо «Ред ОС» и ALT Linux, мы находимся на финальной стадии сертификации и совместимости RT.Warehouse и Astra Linux, причем на весьма сложную версию «Воронеж».

В минувшем году подтвердили, что часть наших продуктов совместима с Astra Linux 1.7.5

CNews: Как менялись запросы заказчиков в последние годы и с момента закрытия Greenplum?

Андрей Телюков: Глобально тренды последних лет и тренды после закрытия Greenplum отличаются. В последние 2-3 года был большой поток запросов на реализацию проектов, аналогичных Oracle и Tеradata. Наблюдалась миграция с импортных решений, которые стали недоступны в России. Бизнес осознал сложности поддержки аналитических хранилищ на этих платформах. Но не все компании пошли по такому пути: некоторые приняли риски и продолжают использовать Oracle или Tеradata. Я говорю о достаточно крупных компаниях, но их немного. Существуют также компании-консультанты, которые помогают эксплуатировать импортные решения в России. Но большая часть рынка сделала выбор в пользу open-source или вендоров, которые предлагают собственную сборку Greenplum, как мы, например. Эта история длилась около двух лет.

В этом году мы получили еще одну интересную новость — о закрытии Greenplum. Поэтому появились проекты по переходы с open source GreenPlum на вендорские сборки, как например Fplus.

Безусловно есть компании, которые продолжают использовать open source сборки, но, как правило, это крупный бизнес, который занимается разработкой собственных решений для ИТ и обладает значительными командами для поддержки и развития дистрибутива ПО и у которого есть специфические требования к ПО, которые не интересны другим участникам рынка. Оценить доли рынка сложно, но по своим наблюдениям вижу, что многие находятся в стадии ожидания и в ближайшее время будут делать выбор: кто исторически работал с опенсорсом и имеют большие команды скорее всего на нем и останутся, другие же будут переходить на вендорские сборки. Время покажет, как будет развиваться ситуация.

Предполагаю, что многие придут к тому, что вендорские продукты — это правильный путь, поскольку они помогают снизить риски исчезновения open-source проектов. Например, мы всегда открыты к заказчику и учитываем его потребности при формировании бэклога и дорожной карты развития продукта.

Важно отметить, что для развития open-source проектов, компаниям необходимо инвестировать время и ресурсы в своих разработчиков. Не каждая готова это делать.

CNews: Вы упомянули, что некоторые компании продолжают использовать старые решения. Какие риски они несут?

Андрей Телюков: Здесь речь скорее идет не о рисках, а об издержках того, что решение должно развиваться. Не всегда функциональные возможности open-source версии Greenplum, доступные в мае 2024 года, соответствуют потребностям бизнеса.

Если в компании работает хранилище на Greenplum, и в штате есть команда компетентных инженеров, то ближайшее время с высокой долей вероятности всё будет продолжать работать в текущей конфигурации.

Но один из рисков — необходимость удерживать команду. Мы зависим от людей — определенное количество участников проекта, при потере которых он не сможет быть завершен оставшимися участниками. Таких людей в России очень немного. И еще всплывает вторая проблема с количеством обходных решений, которые используются для удовлетворения потребностей бизнеса. Например, подходы к репликации данных для отказоустойчивости в случае аварий или к мониторингу у каждого заказчика свои. Команда поддержки вынуждена бороться за ресурсы для развития прикладной части хранилища. В этой ситуации может быть целесообразнее передать эти издержки на аутсорсинг вендору и работать в модели заказчика.

CNews: Каковы основные отличия вашего продукта от решений, предлагаемых конкурентами на российском рынке, и какие преимущества он имеет?

Андрей Телюков: Мы находимся в такой же ситуации, как и все. База была одинаковая. Понимаем, что есть некоторые подвижки с семеркой, и конкуренты тоже пытаются развиваться в этом направлении. Но для нас семерка сейчас не приоритет, поэтому мы сосредоточены на развитии шестой версии и тех конкурентных преимуществах, которые можем предоставить нашим закзачикам.

Мы находимся на финальном этапе сертификации, выполняем все требования регулятора по безопасности, чтобы получить сертификат ФСТЭК для СУБД 4-го уровня. Это один из примеров.

Что касается DR, то это еще одна задача, которую мы решаем самостоятельно. В следующем году мы планируем развивать отдельные фичи, направленные на оптимизацию Greenplum, включая отслеживание работы пользователей и эффективность расходования ресурсов кластеров.

Еще у нас есть большой опыт эксплуатации крупного кластера, который основан на нашей работы с «Ростелекомом». У нас есть заказчик, использующий крупный кластер, и мы понимаем проблематику, с которой он сталкивается, а также знаем, как ее решить.

CNews: Можете рассказать подробнее о том, как вы обеспечиваете безопасность своих решений?

Андрей Телюков: Давайте разделим безопасность данных и безопасность разработки. Для получения сертификата ФСТЭК необходимо сосредоточиться на требованиях к разработке самого решения. Базируясь на бывшем open-source проекте, сделать это достаточно трудозатратно. Нужно выполнить все требования по сканированию, поиску уязвимостей, фаззингу, провести пентесты. Это большая работа, которая позволяет нам уверенно заявлять, что в продукте практически нет уязвимостей. Почему я говорю «практически»? Рынок киберпреступности и кибербезопасности развивается стремительно, и новые уязвимости появляются регулярно.

Тем не менее, путь к получению сертификата и выстроенный процесс безопасной разработки позволяют нам быстро реагировать на подобные проблемы и оперативно выпускать новые версии продуктов. Так мы обеспечиваем нашим заказчикам максимально свежие и надежные решения.

Если говорить о безопасности данных, то она достигается за счет выполнения требований ФСТЭК. Эти меры отчасти направлены на стандартизацию работы с парольными политиками, пользователями и утилизацией неиспользуемых данных. Все эти задачи успешно решены в нашем продукте.

Отдельно отмечу решение по отслеживанию данных. Процесс зависит не только от продукта, но и от мероприятий, которые должны проводиться на стороне заказчика. Важно понимать, какие данные хранятся, и кто имеет к ним доступ. Эта история находится на границе Data Governance и Data Steward, чтобы обеспечить и качество данных, и их корректное описание, и контроль доступа к ним. Безопасность данных не ограничивается только продуктом RT.Warehouse. Это скорее вопрос правильного использования инструментов. Компании-заказчику необходимо заранее разработать свою методологию для эффективного применения данного продукта.

CNews: Как можно оценить эффективность внедрения решений для работы с данными?

Андрей Телюков: Эффективность внедрения продуктов у заказчиков зависит от множества факторов, и каждый потенциальный заказчик определяет для себя ключевые критерии оценки. Для кого-то важен бюджет, для других — безопасность, а кто-то акцентирует внимание на скорости доработок. Поэтому нельзя выделить единую методологию оценки.

Если говорить о бюджете и о том, как заказчики чаще всего оценивают выгоду от использования продукта, то главным аспектом становится экономия. Например, при использовании open-source решений кажется, что затраты должны быть ниже, но это не так, т.к. значительно растут затраты на команду как на этапе внедрения, так и на дальнейшем сопровождении решения. В случае вендорского решения значительная ччасть необходимых доработок уже выполнена нами, и мы готовы сделать дополнительные доработки по требованиям заказчика, если это необходимо. После внедрения заказчик может нанять команду администраторов, которые будут работать в тесном сотрудничестве с нашей техподдержкой. Это позволяет эффективно решать возникающие проблемы и задачи проектирования, что в итоге приводит к более оптимальному расходованию ресурсов и времени.

CNews: Расскажите о процессе внедрения с точки зрения взаимодействия с командой заказчика.

Андрей Телюков: Есть несколько вариантов внедрения. Первый и наиболее распространенный вариант — это работа с партнерами. Мы как раз развиваем это направление. В этом случае мы взаимодействуем в формате трехстороннего сотрудничества: заказчик, партнер-интегратор и мы в роли вендора. Партнер помогает заказчику сформулировать требования и разработать архитектурное решение, а затем на основе нашего инструмента создать прикладное программное обеспечение. Партнер также отвечает за установку и конфигурацию нашего инструмента в инфраструктуре заказчика.

Второй вариант внедрения подходит для заказчиков с более зрелой ИТ-инфраструктурой, которые имеют опыт работы с данными и знакомы с open-source решениями. В этом случае мы предлагаем услугу вендорского архитектурного-надзора. Это позволяет нам совместно с технической поддержкой заказчика осуществлять инсталляцию инструмента и его правильную конфигурацию в режиме парного программирования. После этого заказчик может самостоятельно использовать инструмент, а в случае возникновения проблем он может напрямую обращаться к нам, чтобы решить любой вопрос.

CNews: Проводите ли вы обучение для сотрудников заказчика?

Андрей Телюков: Да, у нас есть курсы для заказчиков и партнеров, сейчас мы активно инвестируем в их развитие. Курсы направлены на полное погружение в платформу. Мы акцентируем внимание на технологиях нашего стека и портфеле продуктов, а также на том, как они интегрируются и управляются.

В планах на следующий год — более фокусное развитие обучающих программ, каждая из которых будет посвящена отдельному продукту. Например, мы планируем развивать программу для RT.Warehouse, мы понимаем актуальность качественного конкурентного обучения, в текущих условиях.

«Мы планируем объединить все наши продукты в единую платформу, которая позволит пользователям быстро выбирать нужное решение под конкретные задачи и обеспечит единой управление для комплексных проектов в области работы с данными»

CNews: Какие основные трудности возникают у заказчиков при переходе на новые решения для работы с данными?

Андрей Телюков: Здесь нужно четко сформулировать, что мы подразумеваем под новыми решениями. При переходе на новые решения для работы с данными, например, при миграции с Oracle или Teradata на Greenplum, заказчики сталкиваются с тем, что им просто непривычно работать на новых платформах. Специалисты, привыкшие к работе с Enterprise-решениями, могут испытывать сложности, если не пройдут обучение и не ознакомятся с особенностями работы Greenplum. Это не значит, что одно решение лучше другого. Они просто функционируют по-разному. Это как водить машину с автоматической коробкой передач и с механической. В обоих случаях можно развивать одинаковую скорость, но есть нюансы управления. Нужно понимать концепции, которые лежат в основе функционала, чтобы использовать инструмент правильно. Например, особенности репликации или определенные функции могут работать иначе, чем в Oracle. Поэтому важно, чтобы пользователи знали об этих отличиях и были готовы адаптироваться к новым условиям работы.

CNews: А если заказчик решает перейти с open-source, например, на ваше решение?

Андрей Телюков: В таком случае сложностей не возникает. Наоборот, заказчик получает множество преимуществ и выгоды от перехода на наше решение. Мы уже не раз проводили такие миграции и не сталкивались с проблемами. Все проходит с минимальными рисками и затратами.

CNews: Как вы считаете, можно ли применять в работе с данными искусственный интеллект?

Андрей Телюков: Да, конечно! Искусственный интеллект — мощный инструмент, который нужно правильно использовать, например, осуществлять с его помощью разметку данных, автозаполнение терминов и другие операции. У нас есть отдельный продукт, который существует в рамках дата-кластера «Ростелекома». Это продукт «Нейрошлюз», который позволяет интегрировать в корпоративный ландшафт возможность обращения к нейросетям. Но использование нейросетей и искусственного интеллекта, особенно при передаче данных и формулировании запросов, может быть рискованным. Неправильное обращение с данными иногда приводит к утечкам, поэтому важно уметь применять эти технологии. Наше решение на базе нейросети позволяет детектировать потенциальные угрозы и предостерегать пользователей от возможных утечек данных.

CNews: Поделитесь планами на 2025-й год? Как планируете развивать свои продукты?

Андрей Телюков: Мы планируем развивать функции, которые стали недоступны, но были доступны в enterprise-версиях от Pivotal. Тот же Cluster Manager, тот же мониторинг. Сейчас у нас есть мониторинг различных ресурсных групп пользователей и отслеживание выполнения запросов и нагрузки на кластер. Будем продолжать работать в этом направлении.

В будущем для более эффективного перемещения данных мы планируем объединить все наши продукты в единую платформу, которая позволит пользователям создавать решения «из коробки», не задумываясь о том, как будут перемещаться данные из холодного хранения в витрины. Пользователь сосредоточится на решении своей задачи, а мы предоставим необходимые инструменты.

Мы также продолжим инвестировать в безопасность как разработки, так и хранения данных. Будут большие релизы в области RT.DataLake. Это наша сборка Hadoop, которая поможет упростить доступ к данным, повысить защиту кластера и снизить нагрузку на заказчиков при реализации этих мероприятий.

У нас есть множество наработок, которые позволят автоматизировать настройку и эксплуатацию защиты данных, отслеживание работы с данными, проведение аудитов доступа к данным и проверку наличия прав доступа. В результате мы создадим единое решение, которое охватит и Hadoop, и NiFi, и Kafka. Так же мы планируем интегрировать RT.WideStore и RT.Warehouse, чтобы обеспечить централизованный контроль доступа пользователей.

Краткая биография

Андрей Телюков

  • В 2012 г. окончил факультет микроприборов и технической кибернетики Национального исследовательского университета «Московский институт электронной техники».
  • Андрей имеет опыт работы в проектах различной сложности ИТ более 15 лет, за это время прошёл карьерный путь от разработчика до директора управления.
  • Обладает практическими знаниями по управлению процессом разработки и созданию команд как для разработки проектов с нуля, так и поддержки и рефакторингу legacy-решений.
  • Принимал участие в проектах монетизации и обогащения данных и автоматизации таких процессов.
  • С 2020 г. под руководством Андрея была с нуля сформирована команда с уникальной экспертизой по созданию и развитию продуктов по работе с большими данными.