Спецпроекты

MS SQL Server 2012 раскладывает данные "по полочкам"

Бизнес Интеграция Системное ПО Тендеры
Любой бизнес опирается на информацию. Данные о заказчиках и контрагентах, собственных сотрудниках, продажах и поставках — все это содержится в десятках и сотнях таблиц баз данных, без которых сегодня немыслима успешная деловая деятельность. База данных (БД) является виртуальным аналогом вместительного шкафа с документами — это единое место для хранения, упорядочения и доступа ко всей информации предприятия.

В системе можно выделить три типа ролей пользователей: специалист НСИ, эксперт НСИ и администратор НСИ. Специалист НСИ отвечает за поддержание НСИ в корректном и актуальном состоянии. Интерфейс MDM-модуля позволяет ему осуществлять утверждение/отклонение запросов на добавление и изменение элементов, изменять и добавлять записи вручную, просматривать журнал изменений и возвращаться к одной из предыдущих версий. Специалист НСИ оповещается по электронной почте о возникновении ситуаций, требующих его вмешательства. Например: в систему поступили данные, требующие дополнительного утверждения, или данные, не удовлетворяющие определенному набору бизнес-правил.

Основной задачей Эксперта НСИ является управление моделями (иерархией и классификаторами) и различными функциональными параметрами системы. Эксперт НСИ может через веб-интерфейс системы задать/изменить метамодель (в том числе и иерархию, связи между элементами и пр.), создать новую версию метамодели, определить и отредактировать бизнес-правила, задать параметры для нечеткого поиска.

Администратор НСИ отвечает за нефункциональную часть системы. Интерфейс Администратора предоставляет такие возможности как разграничение прав доступа всех пользователей, настройка оповещений, настройка интеграционной части системы.


Сегодня в хранилищах различных организаций накоплены внушительные объемы данных, которые уже не подвергаются никакой модификации

Совершенно новой функцией SQL Server 2012 можно назвать Data Quality Service (DQS), службу управления качеством данных. Этот сервис определяет пригодность тех или иных данных, используемых для принятия каких-либо бизнес-решений. В принципе, подобные операции были возможны и в SQL Server 2008 R2 благодаря таким механизмам как Fuzzy Logic, Data Cleansing и т. п. Теперь же все эти инструменты объединены в единый сервис DQS.

Со своей задачей это решение справляется, создавая и поддерживая набор базы знаний качества данных Data Quality Knowledge Base (DQKB), представляющей собой формальное описание механизмов загрузки, обработки и преобразования данных, согласно форматам, определенным в системе EIM. Таким образом, использование DQS вводит новую роль на предприятии – роль Управляющего Данными (Data Steward), человека, ответственного за обеспечение и поддержание определенного качества данных внутри предприятия, что дает возможность прочим системам, использующим эти данные, работать прозрачно, прямолинейно и без взаимных коллизий.

DQS позволяет определять синтаксические ошибки, проводить валидацию, взаимное соответствие, искать синонимы, устранять коллизии. Например, для выявления синтаксических ошибок используется алгоритм под названием "Анна Каренина", который позволяет загружать в EIM-систему данные, написанные в разном формате, имеющие синтаксические или орфографические ошибки, не соответствующие логике ввода (например – перепутаны имя и фамилия в полях ввода Ф.И.О.) и т.п. Таким образом, данные проходят очистку и унификацию.

Службы Data Quality Services можно запускать как автономное средство или интегрировать со службами SQL Server Integration Services (SSIS). Пользователи SQLServer 2012 смогут получать доступ к веб-сайту Windows Azure Marketplace Data Market, который можно использовать в качестве источника сторонних данных для проверки и очистки данных в рамках проектов по оценке качества данных.

Бизнес-анализ в SQL Server 2012

Благодаря расширению языка запросов и появлению иерархии "многие ко многим" новая СУБД от Microsoft обеспечивает качественно новые возможности анализа. Это позволяет пользователям интегрировать данные практически из любого источника, создавать эффективные отчеты и аналитические приложения. Кроме того, теперь появилась возможность обмениваться данными анализа и совместно работать над ними с помощью привычных инструментов Microsoft® Excel 2010 и Microsoft SharePoint 2010.

Среди новых и улучшенных функций продукта в области BI стоит отметить такие инструменты как BISM и PowerView.

BI Semantic Model (BISM)

Это новая семантическая модель BI в SQL Server 2012, которая позволяет сделать разработку OLAP-кубов проще. Фактически, она является заменой существующей модели UDM (Unified Dimensional Model), которая сейчас считается стандартом для разработки BI-кубов и включает в себя правила и методологию создания основных элементов аналитической модели: измерений, иерархий, показателей, моделей Data Mining и т.п. Однако UDM – крайне сложный для освоения механизм, требующий навыков многомерного проектирования моделей данных. В отличие от неё, BISM предлагает более простую табличную форму представления модели данных.

BISM – это простая и понятная система, позволяющая строить простые запросы гораздо более эффективно и быстро. Этот факт открывает новые горизонты для использования комплексной аналитики, в том числе и бизнес-пользователями, которые теперь могут самостоятельно строить сложные и многомерные аналитические запросы, используя простой и понятный механизм BISM, внешне похожий на таблицы Excel.

При этом UDM также остается и продолжает развиваться параллельно с BISM, предоставляя более глубинные, но и более сложные подходы к формированию OLAP-моделей, которые могут потребоваться в сложных проектах.

Особенности применения BISM и UDM рассмотрим на примерах, приведенных ниже.

Предположим, сотруднику необходимо просмотреть итоги продаж в компании за последний месяц. Ему достаточно подключится к таблице с данными по сбыту и BISM "подтянет" все связанные таблицы. Далее сотрудник может подключиться через RSS к какому-либо экономическому сайту, загрузить текущую рыночную сводку и подключить её к своему отчету. Таким образом, BISM позволяет построить отчет не только по своей компании, но и сравнить их со средними показателями по рынку в целом. При желании можно быстро подключать и другие таблицы, например данные по продажам конкурентов.

А вот UDM используется для создания сложных запросов с множеством условий. Допустим, необходимо найти клиентов компании, закупки которых росли хотя бы месяц в диапазоне от 5% до 8% , у которых годовой оборот не превышает 100 тыс. долл., и при этом наиболее часто покупаемый ими продукт входит в десятку самых продаваемых продуктов компании. Подобный комплексный запрос можно сделать только в многомерной модели UDM.

PowerView

Еще одно нововведение в SQL Server 2012 – это новая подсистема визуализации и репортинга под названием PowerView (ранее называвшаяся Project Crescent), которая представляет собой высокоинтерактивное решение для визуализации и модификации отчетности через веб-интерфейс. PowerView использует мощнейшую графическую web-платформу Silverlight, которая позволяет использовать анимационные и графические эффекты, а также совершенно новые визуальные элементы, позволяющие ярко и образно отображать аналитическую информацию. Значительное внимание уделено внешнему виду графики и интерфейсу, который стал более удобным и эффективным.

Помимо этого, важной особенностью PowerView является возможность полной модификации отчетов (что раньше отсутствовало в отчетности Reporting Services). Работая в связке с BISM, она позволяет пользователям получать доступ к той информации, которая им необходима прямо во время просмотра отчета и без привлечения IT-службы.

Индекс ColumnStore

Для ускорения производительности обработки данных в новой СУБД SQL Server 2012 используется столбцовое хранение данных в памяти: так называемый индекс ColumnStore. Разработка индекса ColumnStore объединяет технологию VertiPaq (которая является основанием для PowerPivot) и новую парадигму выполнения запросов, называемую пакетной обработкой, и обеспечивает беспрецедентное увеличение скорости обработки типичных запросов к хранилищу данных.

Фактически индекс ColumnStore — это индекс, создаваемый поверх существующей таблицы, основанной на строчном хранении, который обеспечивает представление данных, распределяющее индекс по определенным столбцам. Конкретный уровень роста производительности зависит от данных и характера запроса, и (по результатам тестирования и при наиболее благоприятном стечении обстоятельств) данная технология позволяет добиться 100-кратного повышения производительности.

В отличие от большинства СУБД, предлагающих исключительно функции хранения данных, SQL Server 2012 предоставляет гораздо более широкий функционал. Разработчики Microsoft немало потрудились над тем, чтобы улучшить уже существующие модули и интегрировать ряд новых инструментов. Новый "Сиквел Сервер" превратился в мощный многофункциональный комплекс, предоставляющий множество различных дополнительных средств, которые сослужат хорошую службу для тех, кто желает "выжать" всё из ИТ.

Максим Самойленко