Разделы

ПО Бизнес Тендеры Цифровизация ИТ в госсекторе

Федеральной налоговой службе поставят «русский Hadoop» для работы с большими данными

В 900-миллионном тендере ФНС по линии больших данных победила IBS, которая предположительно поставит для аналитики корпоративный дистрибутив открытой аналитической платформы Hadoop, созданный перешедшей под управление IBS российской компанией «Аренадата».
Победа IBS в 900-миллионном тендере ФНС

Созданием программно-аппаратного комплекса (ПАК) аналитической подсистемы АИС для работы с большими данными Федеральной налоговой службы (ФНС) займется компания «ИБС экспертиза» — «дочка» российского интегратора IBS. На электронном аукционе с начальной ценой лота в 897,3 млн руб. она сбила цену до 874,9 млн руб. Конкуренцию победителю пытались составить «ФОРС-центр разработки» и «Депо электроникс», но их ценовые предложения оказались менее привлекательными — 879,4 млн руб. и 888,3 млн руб. соответственно.

Теперь, до 25 января 2018 г. «ИБС экспертизе» предстоит осуществить поставку оборудования, передачу прав на ПО и выполнение работ по созданию ПАКа. Судя по техзаданию, ПАК будет размещен в ЦОДе ФНС, базирующемся в Городце в Нижегородской области. Непосредственным заказчиком работ выступает Федеральное казенное учреждение «Налог-сервис» ФНС в Москве. Ранее в организации не ответили CNews на вопрос о том, что именно (какого рода данные) станет анализировать закупаемый ПАК.

Конкретные вендоры «железа» и софта в техзадании не прописаны, однако в документах приводится подробное обоснование невозможности использования отечественного ПО ряда классов. В частности, ведомству не подошла, например, ни одна из российских серверных ОС, включая «Альт Линукс», Astra Linux, Kraftway Terminal Linux, «Роса», «Базальт», «Альфа», «Эльбрус» и др., и ни одна отечественная СУБД, в том числе Postgres Pro, «Ред база данных», «Линтер», «Гослинукса», «Синтез» и пр.

«Русский Hadoop» для анализа данных

Как рассказал CNews Олег Фатеев, в 2012-2015 гг. занимавший в IBS должность директора по развитию бизнеса облачных вычислений, а сейчас выступающий координатором сообщества профессионалов в области больших данных BigBigData Russia, IBS является традиционным и самым крупным ИТ-поставщиком ФНС. По словам эксперта, до недавнего времени проекты ФНС, связанные с большими данными, строились на решениях американской корпорации Teradata. Несколько лет назад в ведомство были осуществлены поставки продуктов этого разработчика на десятки миллионов долларов, а в IBS в 2012-2014 гг. по направлению Teradata трудился коллектив примерно из 70 человек.

IBS создаст в ФНС комплекс для аналитики больших данных за 875 млн

Как утверждает Фатеев, в какой-то момент в IBS по ряду причин разочаровались в зарубежном вендоре и решили обратить свое внимание на решения с открытым кодом. Выбор в итоге пал на корпоративный дистрибутив открытой аналитической платформы Hadoop, созданный российской компанией «Аренадата». Данный дистрибутив в 2016 г. прошел полную сертификацию на соответствие требований ODPi — международного сообщества разработчиков ПО с открытым кодом в области больших данных. В «Аренадате» считают свой продукт российским решением.

К настоящему моменту компания уже перешла под управление IBS. Это не нашло отражение в базе данных ЕГРЮЛ (100-процентным учредителем ООО «Аренадата» заявлен Сергей Петров, юридически напрямую с интегратором не связанный), однако подтверждается пометкой на сайте arenadata.io — «проект компании IBS», а также косвенными данными на сайте самой IBS.

По данным Фатеева запускаемый сейчас проект для ФНС станет первой столь серьезной поставкой на платформе Arenadata Hadoop.

Отметим, что название платформы Hadoop фигурирует в техзадании в тендерной документации. В соответствии с системными требованиями, с ней в ПАКе должен быть совместим модуль извлечения лингвистических сущностей.

Комментарий IBS

На вопросы CNews о том, действительно ли в части ПО для анализа больших данных IBS было предложено ФНС решение на Arenadata Hadoop, и станет ли это на сегодня крупнейшей и первой значимой поставкой разработок на этой платформе, генеральный директор компании IBS Светлана Баланова дала весьма расплывчатый ответ.

Она отметила, что публикация технических подробностей конкурсных заявок — это прерогатива заказчика. «IBS, естественно, заинтересована в продвижении собственных решений во всех государственных и частных структурах, — добавила Баланова. — Сейчас на различных конкурсах мы предлагаем целый спектр разработок на базе программно-аппаратного комплекса “Скала”, который полностью конкурентоспособен на мировом рынке конвергентных платформ. Также на основе проекта Arenadata, ставшего недавно частью IBS, мы разворачиваем линейку продуктов для универсальных платформ данных. В частности, государственный сектор проявляет заинтересованность первым продуктом из этой серии — Arenadata Hadoop, дистрибутивом распределенной платформы хранения на базе Apache Hadoop».

Что еще закупается в рамках тендера

Номенклатура поставки ПАКа включает пять северов на базе процессоров с архитектурой x86-64 с возможностью работы с 64-разрядными приложениями на аппаратном уровне. В каждом сервере подразумевается использование не менее 32 процессоров, имеющих не менее 24 ядер, работающих на частоте не ниже 2,2 ГГц при частоте внешней шины не ниже 2133 МГц.

Также для ПАКа требуются девять коммутаторов InfiniBand, две СХД, четыре коммутатора ядра, два коммутатора доступа, восемь коммутаторов управления, два межсетевых экрана, два маршрутизатора.

Что касается ПО, то контракт предполагает поставку 960 комплектов ОС серверов, одного комплекта ПО управления средой виртуализации, восьми комплектов ПО виртуализации серверов, 264 СУБД двух типов, 200 модулей извлечения лингвистических сущностей, 12 платформ построения распределенных приложений для массово-параллельной обработки.

Большие данные для анализа

В приведенных в техзадании требованиях к модулю ПАКа для извлечения так называемых лингвистических сущностей прописана обработка не менее 20 млн. символов в час.

Также указывается, что ПАКом должно обеспечиваться выделение не менее трех классов сущностей. Первый из них касается персон, организаций, географических объектов и пр., обозначаемых в тексте с использованием имен собственных. «Программа должна отождествить такие обозначения одной персоны как Владимир Петрович Штырь, Владимир, Штырь, он, отличив по контексту город Владимир от человека Владимира и человека с фамилией Штырь от цилиндрического стержня», — говорится в ТЗ.

Второй класс касается неименованных сущностей, обозначенных в тексте словами основных частей речи: нарицательными именами существительными, прилагательными, нестроевыми глаголами и пр. «Имена таких сущностей должны определяться на основании синтаксического анализа текста и правил русского языка. Так, от каждого упоминания имени существительного в тексте должны строиться нормальные формы всех именных групп, главным словом которых выступает данное существительное. Например, если в тексте упоминается китайские космические грузовик и лаборатория, то должно быть обеспечено получение имен всех неодушевленных предметов, о которых шла речь: китайские космические грузовик и лаборатория, китайский космический грузовик, китайская космическая лаборатория, космический грузовик, космическая лаборатория, китайский грузовик, китайская лаборатория, грузовик, лаборатория», — отмечается в документе.

Третий класс — специальные сущности, обозначаемые в тексте конструкциями особого вида, обычно смешанными из цифр и символов: даты и обстоятельства времени, денежные суммы, идентификационные данные персон и организаций и т. п. «Такие конструкции должны распознаваться посредством формальных правил. Должна быть обеспечена возможность добавления (исправления, удаления) для выявления новых типов специальных сущностей», — гласит ТЗ.

Денис Воейков