Обеспечение качественного обобщения моделей на
Выборки
• Простая случайная.
• Стратифицированная.
• Взвешенная.
• Кластерная.
• Систематическая.
• Первые N наблюдений.
• Выборка редких событий.
Разбивка данных
• Создание обучающих, проверочных и тестовых наборов данных.
• Обеспечение качественного обобщения моделей на основании контрольных данных.
• Стандартная стратификация по целевому классу.
• Сбалансированная разбивка по любой классовой переменной.
Преобразования
• Простые: логарифмическое, квадратный корень, обратное, квадратичное, экспоненциальное, стандартизованное.
• Накопительные: bucketed (с разбивкой по областям), квантильное, оптимизированная разбивка по взаимосвязи с целевымм значениями.
• Оптимизированные: максимизация нормализации, максимизация корреляции с целевыми значениями, выравнивание распределения по целевым уровням.
Фильтрация недостоверных данных
• Применение различных распределительных порогов, позволяющих исключить значения из экстремальных интервалов.
• Объединение классовых значений, встречающихся менее n раз.
Замена данных
• С использованием мер центрированности.
• На основе распределения.
• Заполнение дерева суррогатными значениями.
• Методом усреднения расстояний.
• С использованием устойчивых M-оценок.
• С использованием стандартных констант.