Разница между деревом решений и случайным лесом

Оглавление:

Anonim

В главное отличие между деревом решений и случайным лесом заключается в том, что дерево решений - это граф, который использует метод ветвления для иллюстрации всех возможных результатов решения, в то время как случайный лес - это набор деревьев решений, который дает окончательный результат на основе выходных данных всех его деревьев решений.

Машинное обучение - это приложение искусственного интеллекта, которое дает системе возможность учиться и совершенствоваться на основе прошлого опыта. Дерево решений и случайный лес - это два метода машинного обучения. Дерево решений отображает возможные результаты ряда связанных выборов. Он популярен, потому что он прост и понятен. Когда набор данных становится намного больше, одного дерева решений недостаточно, чтобы найти прогноз. Альтернативой этой проблеме является случайный лес, представляющий собой набор деревьев решений. Выход случайного леса основан на выходных данных всех его деревьев решений.

Дерево решений, Машинное обучение, Случайный лес

Что такое дерево решений

Дерево решений - это диаграмма в форме дерева, которая используется для определения курса действий. Каждая ветвь дерева представляет собой возможное решение, происшествие или реакцию.

С деревом решений связано несколько терминов. Энтропия - это мера непредсказуемости набора данных. После разделения набора данных уровень энтропии уменьшается по мере уменьшения непредсказуемости. Прирост информации - это уменьшение энтропии после разбивки набора данных. Важно разделить данные таким образом, чтобы получить больше информации. Окончательные решения или классификации называются листовыми узлами. Самый верхний или главный узел называется корневым узлом. Набор данных следует разделять до тех пор, пока конечная энтропия не станет равной нулю.

Простое дерево решений выглядит следующим образом.

Рисунок 1: Дерево решений

Вышеупомянутое дерево решений классифицирует набор фруктов. Есть 4 винограда, 2 яблока и 2 апельсина. Если принять во внимание диаметр менее 5, виноград подразделяется на одну сторону, а апельсины и яблоки - на другую. Виноград нельзя классифицировать дальше, так как у него нулевая энтропия. При классификации на основе цвета, т. Е. От того, является ли красный плод красным или нет, яблоки классифицируются на одну сторону, а апельсины - на другую сторону. Таким образом, это дерево решений классифицирует яблоко, виноград или апельсин со 100% точностью.

В целом дерево решений просто для понимания, его легче интерпретировать и визуализировать. Не требует большой подготовки данных. Он может обрабатывать как числовые, так и категориальные данные. С другой стороны, шум в данных может привести к переобучению. Более того, модель также может стать нестабильной из-за небольших вариаций.

Что такое случайный лес

Случайный лес - это метод, основанный на построении нескольких деревьев решений на этапе обучения. Решения большинства деревьев являются окончательным решением случайного леса. Вот простой пример.

Предположим, есть набор фруктов (вишни, яблоки и апельсины). Ниже приведены три дерева решений, которые классифицируют эти три типа фруктов.

Рисунок 2: Дерево решений 1

Рисунок 3: Дерево принятия решений 2

Рисунок 4: Дерево принятия решений 3

Модель выдается новый плод диаметром 3. Этот фрукт оранжевого цвета, растет летом. Первое дерево решений классифицирует его как апельсин. Второе дерево решений классифицирует его как вишню, а третье дерево решений - как апельсин. При рассмотрении всех трех деревьев есть два выхода для апельсина. Следовательно, конечный результат случайного леса - апельсин.

В целом случайный лес дает точные результаты для более крупного набора данных. Это также снижает риск переобучения.

Разница между деревом решений и случайным лесом

Определение

Дерево решений - это инструмент поддержки принятия решений, который использует древовидный граф или модель решений и их возможных последствий, включая случайные исходы событий, затраты на ресурсы и полезность. Случайные леса - это метод обучения ансамбля, который работает путем построения множества деревьев решений во время обучения и вывода класса в зависимости от отдельных деревьев.

Переоснащение

Существует возможность переобучения в дереве решений. Использование нескольких деревьев в случайном лесу снижает риск переобучения.

Точность

Случайный лес дает более точные результаты, чем дерево решений.

Сложность

Дерево решений проще и легче для понимания, интерпретации и визуализации, чем случайный лес, который сравнительно сложнее.

Заключение

Разница между деревом решений и случайным лесом состоит в том, что дерево решений - это граф, который использует метод ветвления для иллюстрации всех возможных результатов решения, в то время как случайный лес - это набор деревьев решений, который дает окончательный результат на основе выходов всех его деревья решений.

Ссылка:

1. Алгоритм случайного леса - объяснение случайного леса | Случайный лес в машинном обучении, Simplilearn, 12 марта 2018 г., доступно здесь.

Разница между деревом решений и случайным лесом