Предпосылки создания KXEN
В 1990-е годы были получены важные результаты в математике и машинном обучении. Инициатором исследований в этой области стал Владимир Вапник, опубликовавший свою Статистическую Теорию Обучения. Он был первым, кто приоткрыл дверь к новым путям декомпозиции ошибки, получаемой в процессе применения методов машинного обучения. Он обнаружил и описал структуру этой ошибки и на основе сделанных выводов отыскал способ структурировать методы моделирования.
Что же дает такая структура? Вместо того, чтобы случайным образом выбирать и опробовать все имеющиеся методы, она позволяет определить направление для поиска и сравнения методов между собой. Возникает резонный вопрос: "Так значит, все-таки нужно иметь все эти методы, чтобы сравнивать их между собой?" Ответ: "нет". И вот почему.
Поскольку подбор подходящего метода анализа стал осознанным, а не случайным, и в основе его лежат математические выводы, то появилась возможность извлечь мета-алгоритмы и осуществлять такой поиск автоматически. Этот подход используется на всех этапах обработки данных в KXEN. В действительности, идеологи KXEN использовали и проверяли указанные концепции в решении реальных проблем более десяти лет.
Здесь необходимо уточнить один важный момент. При всех достоинствах мета-алгоритмов KXEN, они не идеальны, и связано это с необходимостью компромисса. Пользователю нужна высокая скорость анализа и в то же время легкая интерпретация полученного результата.
Тот математический аппарат, который заложен в KXEN, в ходе анализа строит несколько конкурирующих моделей. Но этот процесс осуществляется не случайным образом (перебором разных методов моделирования), а путем изучения различных наборов моделей с опорой на Теорию минимизации структурного риска В. Вапника (Structured Risk Minimization). Создатели KXEN разработали механизм сравнения моделей, с тем чтобы добиться наилучшего соотношения между их точностью и надежностью, и уже эту оптимальную модель представить в качестве результата анализа пользователю.
В предыдущих лекциях мы установили, что одна из ключевых проблем в предсказательном анализе - приведение данных в соответствие с используемыми алгоритмами. Одни алгоритмы воспринимают только символы, другие - только числа. Очень часто эксперту приходится тратить много времени на предварительную подготовку данных и их кодирование (обработка пропусков в данных, обработка выбросов, кодирование данных в зависимости от выбранного алгоритма для анализа и т.д.) Также предполагается, что в распоряжении аналитика есть алгоритмы, которые позволяют получить хорошие и состоятельные результаты.
Каким же образом KXEN решает эту проблему? Разработчики KXEN интегрировали способы автоматической обработки отсутствующих и нетипичных значений и технологию предварительного кодирования. Подготовка данных в KXEN разделена на два этапа. На первом этапе, который называется "преобразование данных" (Data Manipulation), специалисты в предметной области выбирают в базе данных или самостоятельно создают атрибуты (переменные, столбцы), которые могут представлять интерес для их задачи. Например, ни одна автоматическая система не скажет, что последняя пятница месяца является хорошим индикатором для прогнозирования денежных потоков между банками. Второй этап подготовки данных включает в себя оптимальное кодирование указанных атрибутов для их наилучшего анализа в рамках выбранных алгоритмов. Задача KXEN заключается в том, чтобы, как только бизнес-пользователь проведет описание задачи, обеспечить автоматическое кодирование соответствующих данных и извлечь максимум сведений по поставленному вопросу.
Другим ключевым моментом является интерпретируемость результатов. Все компоненты KXEN сконструированы таким образом, чтобы представлять конечным пользователям содержательные результаты, т.е. содержательное наполнение, которое отображается в виде графиков, например, понятие вклада переменных, важности категорий, индикаторов качества и надежности.
Сами по себе методы описательного и предсказательного анализа бесполезны. Чтобы извлечь прибыль из модели прогнозирования оттока клиентов, необходимо внедрить эту модель в операционную среду компании и на основе прогнозной оценки предпринимать те или иные действия. Поскольку перед использованием моделей их необходимо натренировать (адаптировать к текущей ситуации), дескриптивный анализ и прогнозирование - это всего лишь часть процесса. Недостаточно обеспечить себя инструментом, необходимо обеспечить себя компонентами, которые будут интегрированы в операционную среду.