¿Qué son los algoritmos de big data?
1. Naive Bayes
Súper simple, como hacer un trabajo de conteo. Si se cumple el supuesto de independencia condicional, NB convergerá más rápido que el modelo discriminativo, por lo que solo necesitará una pequeña cantidad de datos de entrenamiento. Incluso si el supuesto de independencia condicional no se cumple, NB todavía se desempeña sorprendentemente bien en la práctica.
Retorno
LR tiene muchas formas de regularizar el modelo. En comparación con el supuesto de independencia condicional de NB, LR no necesita considerar si las muestras están relacionadas. A diferencia de los árboles de decisión y las máquinas de vectores de soporte, NB tiene una buena interpretación probabilística y es fácil actualizar el modelo con nuevos datos de entrenamiento (mediante el descenso de gradiente en línea).
3. Cuadro de decisiones
DT es fácil de entender y explicar. DT no es paramétrico, por lo que no hay necesidad de preocuparse por si los valores atípicos y los datos son linealmente separables. Además, en muchos problemas de clasificación, RF suele ser el mejor, es rápido y escalable y no necesita ajustar muchos parámetros como SVM, por lo que RF es un algoritmo muy popular recientemente.
4. Máquina de vectores de soporte
La alta precisión de clasificación proporciona una buena garantía teórica para el sobreajuste. Cuando se enfrenta al problema de características linealmente inseparables, al elegir una función de núcleo adecuada. También puede funcionar bien. SVM es muy popular en la clasificación de textos de alta dimensión.
Si quieres aprender más sobre minería de datos, puedes echar un vistazo al curso CDA Data Analyst. Los analistas de big data ahora cuentan con certificaciones profesionales internacionales. Los "analistas de datos CDA" se refieren específicamente a nuevos talentos de análisis de datos que se especializan en la recopilación, limpieza, procesamiento y análisis de datos, y son capaces de realizar informes comerciales y tomar decisiones en Internet, finanzas, comercio minorista, consultoría, telecomunicaciones, medicina, turismo y otras industrias. Los licenciatarios globales de CDA se están adhiriendo a los nuevos conceptos de análisis avanzado de datos comerciales, siguiendo las nuevas normas del "Código de conducta y ética profesional del analista de datos CDA", aprovechando al máximo sus capacidades profesionales en el campo de la ciencia de datos, promoviendo la innovación tecnológica. y el progreso, y ayudar al desarrollo económico sostenible. Haga clic para reservar una lección de prueba gratuita.