Red de Respuestas Legales - Asesoría legal - ¿Qué problema resuelve el algoritmo de bosque aleatorio en los árboles de decisión?

¿Qué problema resuelve el algoritmo de bosque aleatorio en los árboles de decisión?

La aparición de bosques aleatorios se debe principalmente a la comprensión de los grandes errores y los problemas de sobreajuste que pueden ocurrir en un solo árbol de decisión. La idea central de este algoritmo es combinar varios árboles de decisión diferentes y utilizar esta combinación para reducir la unilateralidad y el juicio inexacto que puede generar un solo árbol de decisión.

El bosque aleatorio se refiere a un clasificador que utiliza múltiples árboles para entrenar y predecir muestras. Este clasificador fue propuesto por primera vez por Leo Breiman y Adele Cutler y registrado como marca comercial.

En el aprendizaje automático, un bosque aleatorio es un clasificador que contiene múltiples árboles de decisión. La categoría de su salida está determinada por el patrón de la salida de categoría de cada árbol. Leo Breiman y Adele Cutler desarrollaron un algoritmo para inferir bosques aleatorios. "Random Forest" es su marca registrada. ?

Este término proviene del bosque de decisión aleatoria propuesto por Tin Kam Ho de Bell Laboratories en 1995.

Este método combina la idea de "agregación guiada" de Breimans y el "método del subespacio aleatorio" de Ho para construir un conjunto de árboles de decisión.

Algoritmo de aprendizaje:

Cada árbol se construye de acuerdo con el siguiente algoritmo:

1.n representa el número de casos de entrenamiento (muestras) y M representa cantidad de características.

2. Ingrese el número de características m, que se utiliza para determinar el resultado de la decisión de un nodo en el árbol de decisión, debe ser mucho menor que m.

3. Extraiga n veces de n casos de entrenamiento (muestras) con muestras de reemplazo para formar un conjunto de entrenamiento (muestreo de arranque), use casos de uso no extraídos (muestras) para predecir y evaluar su error.

4. Para cada nodo, se seleccionan aleatoriamente M características y la decisión de cada nodo en el árbol de decisión se basa en estas características. En función de estas m características, se calcula el método de división óptimo.

5. Cada árbol crecerá completamente sin poda, lo que se puede adoptar después de construir un clasificador de árboles normal.