¿Cuáles son los algoritmos para la minería de big data?
1. Naive Bayes, súper simple, como hacer un trabajo de conteo. Si se cumple el supuesto de independencia condicional, NB convergerá más rápido que el modelo discriminativo, por lo que solo necesitará una pequeña cantidad de datos de entrenamiento. Incluso si el supuesto de independencia condicional no se cumple, NB todavía se desempeña sorprendentemente bien en la práctica.
2. Regresión logística, LR tiene muchas formas de regularizar el modelo. En comparación con el supuesto de independencia condicional de NB, LR no necesita considerar si las muestras están relacionadas. A diferencia de los árboles de decisión y las máquinas de vectores de soporte, NB tiene buenas capacidades de interpretación probabilística y es fácil actualizar el modelo con nuevos datos de entrenamiento. Vale la pena usar LR si desea información probabilística o desea actualizar y mejorar fácilmente el modelo cuando tenga más datos en el futuro.
3. Árbol de decisión, DT es fácil de entender y explicar. DT no es paramétrico, por lo que no hay necesidad de preocuparse por los valores atípicos (o valores atípicos) y si los datos son linealmente separables. La principal desventaja de DT es que es fácil de sobreajustar, razón por la cual se proponen algoritmos de aprendizaje conjunto como los bosques aleatorios.
4. La máquina de vectores de soporte tiene una alta precisión de clasificación y una buena garantía teórica contra el sobreajuste. Cuando se enfrenta al problema de la inseparabilidad lineal de características, puede funcionar bien seleccionando una función de núcleo adecuada. SVM es muy popular en la clasificación de textos de alta dimensión.
Si quieres información más detallada, es recomendable que realices el curso de análisis de datos CDA. Los analistas de big data ahora cuentan con certificaciones profesionales internacionales. CDA, o "CDA Data Analyst", es una certificación de calificación internacional profesional y autorizada para toda la industria en el contexto de la tendencia de la economía digital y la era de la inteligencia artificial. Su objetivo es mejorar las habilidades digitales de todas las personas y ayudar a las empresas. transformación digital, y promover el desarrollo digital de la industria. "CDA Data Analyst" se refiere a un nuevo tipo de analista de datos que se especializa en la recopilación, limpieza, procesamiento y análisis de datos, y puede realizar informes comerciales y tomar decisiones en Internet, finanzas, comercio minorista, consultoría, telecomunicaciones, medicina y turismo. y otras industrias. Haga clic para reservar una lección de prueba gratuita.