SSIS и качество данных
Одной из ключевых особенностей SSIS является его способность не только интегрировать данные, но также интегрировать методы обработки этих данных. Такой подход позволяет включить в него средства для очистки информации, основанные на передовой нечёткой логике ("fuzzy logic"). Эти средства были разработаны в исследовательских лабораториях Microsoft и представляют собой последние достижения в этой области. Данный метод является доменно-независимым, т.е. не зависит ни от одного конкретного типа данных, как, например, справочные данные об адресе/почтовом индексе. Это позволяет в таких преобразованиях очищать данные большинства типов, а не только данные об адресе.
SSIS глубоко интегрирован с методами Data Mining из Analysis Services. Анализ данных это процесс извлечения образцов из набора данных и формирования из них модели. Эта модель далее может быть использована для составления прогнозов о том, какие данные из набора являются типичными, а какие аномальными. Т.е. Data Mining можно использовать как механизм для повышения качества данных.
Поддержка комплексных методов передачи данных в SSIS позволяет не только обнаружить аномальные данные, но так же автоматически исправить их и заменить лучшими значениями. Т.е. возможно создать полный цикл очистки данных. На Рисунке 5 представлен пример такого полного цикла.
Рисунок 5
В дополнение к встроенным методам контроля качества данных SSIS может быть расширен за счет аналогичных решений от других производителей.