¿Qué es el algoritmo de bosque aleatorio?
En el aprendizaje automático, un bosque aleatorio es un clasificador que contiene múltiples árboles de decisión. La categoría de su salida está determinada por el patrón de la salida de categoría de cada árbol. Leo Breiman y Adele Cutler desarrollaron un algoritmo para inferir bosques aleatorios. "Random Forest" es su marca registrada. ?
Este término proviene del bosque de decisión aleatoria propuesto por Tin Kam Ho de Bell Laboratories en 1995.
Este método combina la idea de "agregación guiada" de Breimans y el "método del subespacio aleatorio" de Ho para construir un conjunto de árboles de decisión.
Algoritmo de aprendizaje
Cada árbol se construye según el siguiente algoritmo:
1.n representa el número de casos de entrenamiento (muestras) y M representa el cantidad de características.
2. Ingrese el número de características m, que se utiliza para determinar el resultado de la decisión de un nodo en el árbol de decisión, debe ser mucho menor que m.
3. Extraiga n veces de n casos de entrenamiento (muestras) con muestras de reemplazo para formar un conjunto de entrenamiento (muestreo de arranque), use casos de uso no extraídos (muestras) para predecir y evaluar su error.
4. Para cada nodo, se seleccionan aleatoriamente M características y la decisión de cada nodo en el árbol de decisión se basa en estas características. En función de estas m características, se calcula el método de división óptimo.
5. Cada árbol crecerá completamente sin poda, lo que se puede adoptar después de construir un clasificador de árboles normal.
?
Datos ampliados:
Aprendizaje no supervisado con bosques aleatorios
Como parte de la construcción, las predicciones de bosques aleatorios naturalmente conducen a diferencias entre las observaciones medidas. También puede definir una medida de diferencia de bosque aleatoria entre datos sin etiquetar: la idea es crear un predictor de bosque aleatorio que diferencie entre datos "observados" y datos sintéticos generados adecuadamente.
Los datos observados son datos sin procesar y sin etiquetar, y los datos sintéticos se extraen de una distribución de referencia. La medida de disimilitud de bosque aleatorio es atractiva porque maneja bien tipos de variables mixtas, es insensible a las transformaciones monótonas de las variables de entrada y la medición sigue siendo confiable en presencia de valores atípicos.
Debido a su selección de variables inherente, la disimilitud aleatoria del bosque puede manejar fácilmente una gran cantidad de variables semicontinuas.
Materiales de referencia:
Enciclopedia Baidu-Bosque aleatorio