Среди особенностей исходного набора данных,


Среди особенностей исходного набора данных, например, могут быть следующие его характеристики:

•              количество записей в наборе;

•              соотношение количества записей в наборе данных и количества входных переменных;

•              наличие выбросов, ибо некоторые методы особенно чувствительны к наличию выбросов в данных. Этот факт следует учитывать при построении модели на подобных данных.

Как уже упоминалось выше, Data Mining является итеративным процессом.

Итерация - это циклическая управляющая структура, она содержит выбор между альтернативами и следование избранной.

Выбор между альтернативами в нашем случае - это этап оценки модели.

Если модель приемлема, возможно ее использование.

Если по каким-либо причинам построенная модель оказалось неприемлемой, цикл повторяется и следует один из следующих этапов:

•              подготовка данных (если причина некорректности модели -в данных);

•              построение модели (если причина некорректности -во внутренних параметрах самой модели).

Для определения специфических свойств исследуемых данных иногда требуется несколько итераций.

Цикл № t-1. Подготовка данных -> построение модели № t-1-> оценка и выбор модели.

Цикл № t. Подготовка данных -> построение модели № t -> оценка и выбор модели.

Цикл № t+1. Подготовка данных -> построение модели № t+1 -> оценка и выбор модели.

Иногда имеет смысл использовать несколько методов параллельно для возможности сравнения и анализа данных с различных точек зрения.



Содержание раздела