Разделы

Цифровизация Инфраструктура

Спор продолжается: каким быть хранилищу данных

Поводом для написания данного материала послужила статья "Хранилища данных: шаги от идеи до внедрения", опубликованная CNews 17 августа этого года. Спор экспертов об основах и практических моментах создания и внедрения хранилищ данных продолжается.

Макет хранилища

Само хранилище данных располагается на одной из баз данных (преимущественно, способных обрабатывать большие объемы данных) или же используются специализированные средства построения хранилищ. К хранилищам всегда предъявляются стандартные требования, к числу которых относятся возможность поддержки больших объемов информации, высокая скорость доступа к данным и операций над ними, управляемость структуры хранилища, доступ к хранилищу любым приложением, безопасность хранимых данных.

Модель данных для хранилища обычно строится, исходя из требований по формированию отчетов и анализу. На рынке существует несколько стандартных моделей данных, предлагаемых для различных отраслей, которые могут быть довольно легко адаптированы к конкретным требованиям заказчика. Такие шаблоны моделей хорошо применять при построении крупных хранилищ, обрабатывающих большую часть данных компании. Однако чаще всего разработка модели данных проводится при внедрении, особенно, если размеры хранилища невелики.

Рекомендуется использовать подход по построению хранилищ данных с применением промышленных средств
Рекомендуется использовать подход по построению хранилищ данных с применением промышленных средств

Важнейшей технологией для наполнения хранилища данных является ETL (Extract, Transform, Load). ETL-средства используются, как и следует из названия технологии, для извлечения, преобразования и последующей загрузки данных в хранилище. Сейчас существует довольно много разнообразных ETL-средств, но есть стандартные требования к ним, которые должны максимально выполняться. К таким требованиям относятся высокая производительность при выгрузке, обработке и загрузке данных, работа с большими объемами данных, возможность параллельного выполнения процессов загрузки способность подключения к многочисленным типам источников данных без использования промежуточных средств хранения, трансформация данных любой сложности, простота и скорость разработки процессов, внесения изменений и администрирования, а также прозрачность – возможность полного аудита решения.

От работы ETL-части проекта зависит очень многое. Поскольку хранилище данных должно постоянно находиться в актуальном состоянии (а это всегда требование бизнеса), то ETL-средство должно периодически выгружать данные из исходных систем. Причем для обеспечения быстроты обработки и попадания в окно загрузки должны быть выгружены именно изменения в данных с момента последней выгрузки для предотвращения полной перезагрузки хранилища.

Кроме того, ETL-средство должно быть крайне гибким и легким в настройке, чтобы быстро реагировать на требования бизнеса в получении новых видов данных. Хранилище данных почти никогда не является законченным решением, оно постоянно развивается вместе с развитием компании.

Добавим, что могут быть использованы агрегированные представления данных в определенной области, называемые витринами данных. Витрины данных могут входить в состав основного хранилища или существовать отдельно от него. В любом случае, технология работы как с хранилищем данных, так и с витринами идентична.

Системы отчетности и анализа данных (BI, OLAP, Data Mining) используют данные из хранилища, не затрагивая при этом ETL-часть решения. Это и есть визуальная часть проекта. Именно эти системы показывают результат работы огромного механизма, не видимого пользователю. Поэтому очень важно понимать, что сами по себе средства отчетности или анализа могут обрабатывать большие объемы данных, но построение даже самого простого агрегированного отчета в этом случае может занимать часы. Однако при использовании хранилища данных правильно построенный отчет обычно формируется за секунды.

Выбор конкретного BI-средства крайне важен и должен опираться в первую очередь на задачи компании, а также удовлетворять требованиям по скорости формирования отчетов, точности расчетов, возможностям по построению OLAP-кубов и т.д. Существует большой выбор решений такого рода, и важно не ошибиться, учитывая как текущие задачи компании, так и планируемое развитие.