Среди особенностей исходного набора данных,
Среди особенностей исходного набора данных, например, могут быть следующие его характеристики:
• количество записей в наборе;
• соотношение количества записей в наборе данных и количества входных переменных;
• наличие выбросов, ибо некоторые методы особенно чувствительны к наличию выбросов в данных. Этот факт следует учитывать при построении модели на подобных данных.
Как уже упоминалось выше, Data Mining является итеративным процессом.
Итерация - это циклическая управляющая структура, она содержит выбор между альтернативами и следование избранной.
Выбор между альтернативами в нашем случае - это этап оценки модели.
Если модель приемлема, возможно ее использование.
Если по каким-либо причинам построенная модель оказалось неприемлемой, цикл повторяется и следует один из следующих этапов:
• подготовка данных (если причина некорректности модели -в данных);
• построение модели (если причина некорректности -во внутренних параметрах самой модели).
Для определения специфических свойств исследуемых данных иногда требуется несколько итераций.
Цикл № t-1. Подготовка данных -> построение модели № t-1-> оценка и выбор модели.
Цикл № t. Подготовка данных -> построение модели № t -> оценка и выбор модели.
Цикл № t+1. Подготовка данных -> построение модели № t+1 -> оценка и выбор модели.
Иногда имеет смысл использовать несколько методов параллельно для возможности сравнения и анализа данных с различных точек зрения.