Алгоритмы добычи данных
Все инструменты добычи данных, включая Microsoft SQL Server 2005 Analysis Services, используют множество алгоритмов. Конечно, Analysis Services расширяем; сторонние фирмы могут разрабатывать алгоритмы, которые без проблем встраиваются в структуру добычи данных Analysis Services. В зависимости от данных и целей, выбираются различные алгоритмы, и каждый алгоритм может использоваться для различных задач.
Инструменты добычи данных хороши для решения множества задач. Задачи бизнеса, примерно разбитые на категории, перечислены в следующей таблице.
Классификация: Назначение событий заранее определенным классам, таким, как "Хороший" или "Плохой" |
|
|
Сегментирование: Разработка системы для группирования одинаковых событий |
|
|
Ассоциирование: Глубокий поиск корреляций |
|
|
Прогнозирование временных рядов: прогнозирование будущего |
|
|
Прогнозирование: прогнозирование значения для нового события (например, для нового покупателя) на основе значений для подобных событий (таких, как существующие покупатели) |
|
|
Анализ отклонений: определение, как событие или сегмент отличается от других |
|
|
SQL Server 2005 поставляется с самыми популярными алгоритмами добычи данных.
- Алгоритм деревьев принятия решений от Microsoft (Microsoft Decision Trees) часто является начальной точкой исследования данных. В своей основе это алгоритм классификации и он хорошо работает для прогнозирования и дискретных, и непрерывных атрибутов. Когда алгоритм строит модель, он смотрит на то, как каждый входной атрибут в наборе данных влияет на результат прогнозируемого атрибута. Целью является нахождение комбинации входных атрибутов и их состояний, которая позволит вам прогнозировать значение прогнозируемого атрибута.
- Алгоритм Naïve Bayes от Microsoft быстро строит модели добычи данных, которые могут использоваться для классификации и прогнозирования. Алгоритм рассчитывает вероятность, с которой каждое возможное состояние входного атрибута приводит к каждому состоянию прогнозируемого атрибута. Алгоритм поддерживает только дискретные (не-непрерывные) атрибуты и считает, что все входные атрибуты влияют на прогнозируемый атрибут независимо друг от друга. Т.к. алгоритм Naïve Bayes работает очень быстро, он популярен в фазе начального исследования данных для решения как проблем классификации, так и прогнозирования.
- Алгоритм кластеризации от Microsoft (Microsoft Clustering) использует итеративный процесс для группировки строк из набора данных в кластеры, содержащие строки с одинаковыми характеристиками. Используя кластеры, вы можете исследовать данные для нахождения взаимосвязей. Вы также можете делать прогнозы на основе кластерной модели.
- Алгоритм поиска ассоциаций от Microsoft (Microsoft Association) основан на алгоритме a priori и обеспечивает эффективный метод нахождения корреляций в больших наборах данных. Алгоритм поиска ассоциаций двигается в цикле по транзакциям в базе данных для нахождения товаров, которые с наибольшей вероятностью появятся вместе в транзакции одного покупателя. Такие товары группируются в наборы товаров и генерируются правила, которые потом можно использовать для прогнозирования. Алгоритм поиска ассоциаций от Microsoft в основном используется для анализа набора приобретаемых товаров (market basket analysis). Любой реляционный или OLAP анализ, который выполняет множество операций "distinct counting", является хорошим кандидатом для анализа ассоциаций. Алгоритм поиска ассоциаций от Microsoft чувствителен к выбору параметров алгоритма, поэтому для небольших задач алгоритм деревьев принятия решений может оказаться лучше для анализа набора приобретаемых товаров.
- Алгоритм последовательной кластеризации от Microsoft (Microsoft Sequence Clustering) сочетает анализ последовательности операций с кластеризацией для исследования данных и прогнозирования. Модель последовательной кластеризации чувствительна к последовательности возникновения событий. Кроме того, алгоритм кластеризации учитывает другие атрибуты при группировке строк по кластерам, что дает вам возможность создать модель, в которой есть корреляция между последовательной и непоследовательной информацией. Алгоритм последовательной кластеризации используется для анализа маршрута перемещения пользователя по страницам при анализе трафика Web-сайта, определения, какие страницы сайта больше всего связаны с продажей определенного товара, и прогнозирования, какие следующие страницы сайта будут посещены.
- Алгоритм временных рядов от Microsoft (Microsoft Time Series) создает модели, которые могут использоваться для прогнозирования одной или нескольких постоянно изменяющихся переменных, таких, как цена акции. Алгоритм при прогнозировании основывается исключительно на трендах, полученных из обучающих данных при создании модели. Алгоритм временных рядов использует методику AutoRegression Trees, очень прост в использовании и генерирует модели с высокой точностью прогнозирования. Существует целое направление статистического анализа, посвященное временным рядам. Большинство других продуктов добычи данных предоставляют множество методик, таких, как ARMA, ARIMA и Box-Jenkins, из которых статистик должен выбрать тот, который лучше всего соответствует модели. Компания Microsoft выбрала подход, который делает анализ временных рядов доступным широкой аудитории, с великолепными и точными результатами.
- Алгоритм нейронной сети от Microsoft (Microsoft Neural Net), как и алгоритмы деревьев принятия решений и Naïve Bayes, в основном используется для исследования данных, классификации и прогнозирования. Алгоритм нейронной сети - это методика искусственного интеллекта, которая исследует все возможные взаимосвязи между данными. Т.к. этот алгоритм исследует данные тщательнее других, то он является самым медленным из трех алгоритмов классификации.