Спецпроекты

Хранение и обработка данных в стиле SAP: BW или HANA?

Интеграция Бизнес-приложения
Современные компании тонут в море информации, утверждают исследования экспертов в области ИТ. Объемы данных растут, а сроки, которые есть у руководителя на принятие взвешенного управленческого решения, уменьшаются. Счет идет не на дни и недели, как раньше, а на часы и минуты. Как найти точки сопряжения этих тенденций, движущихся по расходящимся курсам? Один из способов – построить аналитическую систему, чтобы быстро получать агрегированные данные из различных ИТ-приложений.

Если за основу для создания такой аналитической системы взять технологии компании SAP, решения которой в корпоративном сегменте для многих отраслей стали стандартом де-факто, то с точки зрения скорости получения данных, соотношения цена/качество и общей стоимости владения наиболее интересными можно назвать два варианта: SAP BW и HANA.

Актуальная классика: SAP BW и BI

Один из них уже есть в практике достаточно многих российских предприятий. Он связан с построением хранилища данных на основе платформы SAP Business Warehouse (BW) и внедрением поверх него инструментов Business Intelligence. Опыт подобных проектов, в том числе реализованных компанией EPAM Systems, доказывает, что таким образом можно серьезно сократить сроки получения необходимой информации. Благодаря чему удается это сделать?

Размеры океана информации

Общий объем хранимой бизнес-информации в мировых масштабах составляет на сегодня 2,2 зеттабайта (или 109 терабайт). Объем данных крупной компании оценивается в среднем в 100 тыс. терабайт, а небольшого или малого предприятия – в среднем в 563 терабайта. В следующем году корпорации ожидают рост объемов информации примерно на 67%, а малые и средние предприятия – на 178%. Проблема больших объемов данных усугубляется их невысоким качеством – почти половина данных организаций (42%) дублируются в различных системах.

Источник: Symantec, 2012

Закупки, продажи, производство, логистика, обслуживание клиентов – каждая из этих сфер деятельности современного предприятия ежеминутно генерирует поток данных. Они распределяются по широкому спектру различных информационных систем – это учетные приложения, промышленные ERP-системы, логистические и биллинговые решения и т.д. С архитектурной точки зрения многие из них, – к примеру, ERP-системы или банковские автоматизированные системы, – работают на реляционных базах данных, в основе которых лежат принципы онлайновой транзакционной обработки (OLTP). Подобная структура позволяет обеспечить высокую производительность при регистрации данных. Каждый автоматизированный бизнес-процесс оставляет свой «след» в одном или нескольких приложениях компании, и объемы накопленной информации постоянно растут.

Для разгрузки учетных систем и высокой скорости получения аналитических данных часть информации можно переместить в другую структуру – хранилище данных. Оно спроектировано уже по совершенно иным архитектурным принципам – для онлайновой аналитической обработки (OLAP). Формирование аналитических данных в разных разрезах, drill-down и slice and dice обеспечиваются надстройкой над хранилищем данных в виде BI-инструментов (рис.1). Помимо ERP-системы, к хранилищу можно подключить все необходимые информационные активы организации, превратив его в полноценное корпоративное хранилище данных.


Увеличить

Рис.1 Взаимодействие систем при использовании хранилища данных
на основе SAP BW

Хранилища данных сейчас используются достаточно широко, но на определенном этапе некоторые компании попадают в ситуацию, когда возможности имеющихся систем уже не позволяют получать качественную аналитическую информацию и необходимую скорость для принятия управленческих решений. Почему так происходит? Проблема заключается в том, что для переноса данных в классическое хранилище используется процесс экстракции, трансформации и загрузки (ETL). При очень больших массивах данных его выполнение потребует достаточно длительного времени, так что начать работать с актуальной аналитикой через считанные минуты после внесения изменений в учетную систему бизнес-пользователи не смогут. Кроме того, возникают вопросы и относительно полноты аналитических данных.

Нередко в хранилище загружаются только агрегированные данные, без возможности их рассмотрения на более детальном уровне. Другой вид - информация ограничена строго определенным временным горизонтом, без возможности увидеть всю историю конкретного показателя. В большинстве случаев причины таких ограничений чисто технические и связаны с тем, что традиционные базы данных уже не могут с приемлемой скоростью обработать накопленные объемы информации. Как следствие, пользователи при выполнении своих BI-запросов пользуются анализом только усеченных – с точки зрения времени или детализации – данных.

Для многих бизнес-задач тех скорости и качества, которые может обеспечить связка «хранилище данных – BI-инструменты», бывает достаточно. В качестве примера можно привести процессы формирования обязательной отчетности, в некоторых случаях - бюджетирования и т. д. Однако есть задачи, для которых требуется получать информацию практически в режиме реального времени. В случае с производственными предприятиями примерами могут служить анализ загрузки производственных мощностей, анализ эксплуатационных характеристик оборудования предприятия и простоев при внеплановых ремонтах, анализ движения технико-материальных ценностей, состояние склада. Для компаний ритейл-сектора и сферы услуг это, к примеру, моментальный анализ рентабельности различных сегментов бизнеса, перерасчет цен в условиях быстро меняющейся ситуации на рынке, оперативное планирование загрузки персонала в офисах и торговых отделениях и т. д. Для финансовых организаций – анализ и управление в реальном времени потоком денежных средств и управление ликвидностью, анализ открытых валютных позиций в банках и др. В этом случае скорость, которую обеспечивает применение хранилища данных, может оказаться слишком низкой, что приведет к росту затрат или потерям компании из-за несвоевременного принятия решений.

Технологичный авангард: SAP HANA

Для выполнения задач, где от руководителей требуется более быстрая реакция на ситуацию на предприятии или в бизнесе в целом, SAP предлагает использовать платформу SAP HANA (также в сочетании с BI-средствами). В ее основе лежит использование построенной на принципах in-memory гибридной базы данных. Это дает возможность сохранять информацию в базе данных как в традиционной построчной модели, так и в поколоночной. Поколоночное хранение обеспечивает высокую скорость агрегирования показателей и использование внутренней компрессии данных, что также положительно влияет на потребление доступной памяти. Встроенный OLAP-процессор агрегирует большие объемы данных на лету, без необходимости построения, заполнения, хранения и использования промежуточных агрегатов. При этом важно отметить, что есть возможность детализировать полученную аналитическую информацию до уровня исходных данных. Кроме того, при работе платформы максимально используются возможности современных процессоров для распараллеливания операций по обработке данных. В результате удается быстро получать нужную аналитическую информацию.