Борисовец Г.А. ПРИМЕНЕНИЕ МЕТОДА ДЕРЕВЬЕВ РЕШЕНИЙ ДЛЯ КЛАССИФИКАЦИИ НАБЛЮДЕНИЙ
04.02.2020, 10:36

Аннотация: В статье приводится описание и пример применения деревьев решений, как метода машинного обучения в задачах классификации.

Abstract: The article provides a description and an example of the use of decision trees as a method of machine learning in classification problems.

Ключевые слова: веб-аналитика, анализ, машинное обучение, деревья решений.

Keywords: web analytics, analysis, machine learning, decision trees.

Анализ поведения пользователей занимает важное место в процессе построения успешного бизнеса, продукта. С развитием технологий и ЭВМ исследователь может обрабатывать огромное количество записей о поведении пользователей.

Методы классификации - это методы обучения с учителем, предназначенные для предсказания категориальных значений. Имея в начале набор прошлых наблюдений, принадлежащих известному классу, классификационные модели используются для создания набора правил, которые позволяют предсказать целевой класс примеров, которые будут получены в будущем [1].

Деревья решений – один из простейших методов машинного обучения. Это совершенно прозрачный способ классификации наблюдений, и после обучения они представляются в виде последовательности предложений if–then (если–то), организованных в виде дерева. Множество деревьев – бор [2].

Имея дерево решений, нетрудно понять, как оно принимает решения. Достаточно проследовать вниз по дереву, правильно отвечая на вопросы, – и в конечном итоге вы доберетесь до ответа. Обратная трассировка от узла, в котором вы остановились, до корня дает обоснование выработанной классификации. Необходимо заметить, что обратное преобразование от узла с правилом к корню не всегда возможно. Это связано с бóльшей свободой записи правил. Например, при использовании операции "или" в построенном по такому правилу дереву возникнет необходимость в дублировании поддеревьев [3].

Модели, построенные с помощью деревьев решений, в отличие от других методов прогнозирования и классификаторов, легко поддаются интерпретации. Список чисел, которые выдает классификатор (например, байесовский), говорит об относительной важности каждого параметра, но для получения окончательного результата необходимо произвести вычисления. Интерпретировать результаты, вырабатываемые нейронной сетью, еще сложнее, поскольку вес связи между двумя нейронами сам по себе мало что значит. Для того же чтобы понять, как «рассуждало» дерево решения, достаточно просто взглянуть на него, а при желании можно даже представить весь процесс в виде последовательности предложений if–then (если–то).

В данном случае, реализация прогнозирования – это классификация пользователей на 2 группы (совершит или не совершит действие) с помощью построенного дерева решений. Построение дерева решений происходит с помощью уже имеющейся информации в базе данных, т.е., другими словами, происходит его обучение.

Для начала должны быть заданы параметры события, совершение которого будем прогнозировать на ближайшую неделю (Кто вероятно купит премиум, кто 10 раз откроет страницу настроек и т.д.).

Затем, в соответствии с указанными параметрами, создаем обучающую выборку. Выборка создается на основе последних 5 недель следующим образом. Каждый элемент выборки содержит 2 важных поля. Первое – данные за неделю для пользователя, рассчитывается количество разнообразных событий и параметров пользователя. Второе – были ли совершены интересующие события на следующей неделе (было, не было).

Следующий шаг – это построение дерева. Процесс является рекурсивным. Отсекаем ветви, чтобы избежать переученности дерева.

Далее получаем данные для пользователей за последнюю неделю. И классифицируем этих пользователей на 2 группы: выполнят условие или не выполнят. Сохраняем данные в базу данных, чтобы можно было в последующем их просмотреть, найти интересующих пользователей и совершать различные событий с ними (выслать мотивирующее письмо, предложить пробный премиум период и т.д).

Для начала необходимо посчитать энтропию текущей выборки. Далее необходимо перебирать параметры выборки и разбивать её на 2 выборки, вычислять информационный выигрыш этих выборок как разницу между энтропией двух групп и текущей выборки. Разбиваем выборку по параметру с наилучшим информационным выигрышем. Далее рекурсивно вызваем функцию для построения следующих узлов дерева.

Для тестирования качества прогнозирования необходимо разделить данные из сгенерированного набора тестовых данных на обучающую и тестирующую выборки (обычно 10% от всей выборки). Затем с помощью обучающей выборки обучить дерево. С помощью обученного дерева теперь необходимо классифицировать каждый образец тестирующей выборки и сравнить с ответами для каждого образца.

При тестирование данной реализации были получены цифры от 75% до 95% правильных ответов при классификации, в зависимости от типов событий. Разброс можно объяснить тем что некоторые события происходят в случайном порядке, в то время как другие зависят от некоторых условий (день недели, другие события).

В связи с таким достаточно высоким процентом правильных ответов, можно сделать вывод, что прогнозирование на основе деревьев решений реализовано успешно.

Список использованных источников:

  1. Сегаран. Т. Программируем коллективный разум. – Пер. с англ. – СПб: Символ-Плюс, 2008. – 368 с., ил.
  2. Статистические методы прогнозирования в экономике: Учебное пособие, практикум, тесты, программа курса / Дуброва Т.А., Архипова М.Ю. Московский государственный университет экономики, статистики и информатики. — М., 2004. — 136 с.
  3. Боровиков В. STATISTICA. Искусство анализа данных на компьютере. -- СПб.: Питер, 2003. 688 с.                                                                                                                                       

    Конкурсы для педагогов

    Конкурсы для студентов

    Конкурсы для школьников

    Всероссийские конкурсы

    Олимпиады

    Всероссийские олимпиады

    Международные олимпиады

    Научные конференции

    Всероссийские конференции

    Международные конференции

Категория: Global Sceince - 2019 | Добавил: POLEVGVIK | Теги: олимпиады, Научные конференции, всероссийские конкурсы, Всероссийские конференции, конкурсы для студентов, конкурсы для педагогов, всероссийские олимпиады, Конкурсы для школьников, Международные олимпиады, Международные конференции
Просмотров: 71 | Загрузок: 0 | Рейтинг: 0.0/0
Всего комментариев: 0
avatar