¿Qué vuelve locos a los científicos de datos?
¿Qué vuelve locos a los científicos de datos?
Hoy en día, la gente siente pasión por la ciencia de datos. Siempre que se agregue "impulso de inteligencia artificial" a la presentación del producto, las ventas del producto se pueden promover enormemente.
Sin embargo, también surgen problemas.
La ciencia de datos a menudo se sobrevalora en marketing. Como resultado, los clientes han aumentado significativamente sus expectativas. Pero, en última instancia, la ciencia de datos debe esforzarse por satisfacer las altas expectativas de los clientes.
En este artículo, analizaremos ocho problemas comunes que vuelven locos a los científicos de datos en proyectos de aprendizaje automático y por qué estos problemas molestan a los científicos de datos.
Si también está en el campo de la ciencia de datos, o está considerando ingresar a este campo, aclarar estas cuestiones puede ayudarlo a tomar mejores decisiones y procesarlos.
1. Queremos un modelo de inteligencia artificial para resolver este problema.
El 80% de los problemas de la industria se pueden resolver mediante un simple análisis de datos exploratorio. Si utilizar el aprendizaje automático para resolver algunos problemas es excesivo, entonces no es necesario considerar el uso de la IA.
Sí, la analítica avanzada es alta. A las empresas les gusta invertir en esta área para liderar la industria. ¿Qué empresa no quiere impulsar proyectos de IA? Pero es necesario dar una explicación básica a los clientes, utilizando casos de uso apropiados de la industria.
“Con diferencia, el mayor peligro de la inteligencia artificial es que la gente cree que la entienden demasiado pronto.”
Eliezer Yudkows Basic
2. , podemos obtener opiniones de análisis revolucionarias.
A menudo los clientes piensan que sólo necesitan enviar datos. Algunos clientes ni siquiera proporcionan una definición del problema relevante, como se muestra en el punto 4. Necesitan analistas de datos para capturar datos y obtener conocimientos empresariales revolucionarios que puedan cambiar la dirección de una empresa de la noche a la mañana.
Desafortunadamente, los científicos de datos no pueden hacer recomendaciones comerciales viables por sí solos. Esto requiere una comunicación continua y efectiva con los clientes para comprender plenamente la situación de la empresa. Es importante desarrollar periódicamente planes con la empresa durante todo el proyecto.
“Si no sabes cómo hacer las preguntas correctas, no aprenderás nada”.
——Edward Deming
3. y salte Ahorre tiempo realizando análisis innecesarios
Muchos analistas de datos ignoran la importancia de la organización de los datos y el análisis exploratorio.
El análisis de datos es un paso necesario para el aprendizaje automático y otros análisis de nivel superior. Si no se comprenden los datos y se detectan valores atípicos o patrones subyacentes, entonces el modelo es inútil. Así que reserve tiempo para el análisis y comparta hallazgos valiosos con los clientes.
"Cuando los alquimistas buscan oro, encuentran muchas otras cosas de mayor valor."
——Arthur Schopenhauer
Según Can, los datos de la semana pasada predicen datos durante los próximos seis meses?
Esta es la situación más molesta para los científicos de datos. El cliente proporcionó algunas filas de datos en una hoja de cálculo y quería que la IA predijera el futuro. A veces incluso más exagerado. Cuando no hay datos, los clientes quieren saber si el aprendizaje automático puede llenar los vacíos en esos datos.
La calidad y la cantidad de datos son importantes, y "basura que entra, basura sale" se aplica al análisis de datos. Las técnicas estadísticas útiles pueden ayudarle a afrontar problemas de datos y sacar más conclusiones a partir de la pequeña cantidad de datos que proporcione. Por ejemplo, estimar puntos faltantes, generar datos o utilizar modelos más pequeños y simples. Pero esto requiere reducir las expectativas de resultados de los clientes.
Análisis de la relación entre tecnología y volumen de datos, fuente: Andrew Ng.
5. ¿Podrás completar el proyecto de modelado en dos semanas?
Muchos proyectos tienen plazos ajustados. Esta disposición de proyecto de alta intensidad a menudo afecta la etapa de ingeniería del modelo. Con la llegada de los modelos API y la computación GPU, los clientes se preguntan qué está frenando a los científicos de datos lentos.
Aunque se ha avanzado en el aprendizaje automático, las operaciones manuales también son fundamentales en el proceso de modelado. Los científicos de datos deben examinar resultados estadísticos, comparar modelos y comprobar interpretaciones en iteraciones dolorosas. Estos no se pueden automatizar, al menos no todavía. Esto se explica mejor a los clientes a través de ejemplos.
6. ¿Se puede reemplazar y actualizar la variable de salida?
Después de que los científicos de datos resuelvan el problema de modelar el comportamiento empresarial, aparecerán nuevas solicitudes, que son los pequeños cambios finales. Normalmente, reemplace las variables de salida y vuelva a ejecutar el modelo. Lo que los clientes no se dan cuenta es que estos cambios no sólo cambiarán los objetivos, sino todo el modelo.
Aunque el aprendizaje automático es altamente iterativo, el desafío clave es seleccionar los factores de influencia correctos para una variable de salida determinada y mapear sus relaciones. Los clientes deben comprender los principios de funcionamiento básicos detrás de esto y determinar la variedad de ajustes que pueden realizar.
7. ¿Puede la precisión del modelo alcanzar el 100%?
Las personas a menudo tienen malentendidos sobre las tasas de error y tienden a perseguir ciegamente los niveles de los exámenes. Algunos clientes incluso quieren que la precisión sea del 100%. Es muy preocupante cuando la precisión supera a otros factores y se convierte en la única preocupación.
¿Qué sentido tiene construir un modelo de alta precisión que sea tan complejo que sea imposible de implementar?
El modelo que ganó el premio Netflix con alta precisión no se ha lanzado oficialmente porque la alta complejidad traerá enormes costos de ingeniería, pero se adoptará el modelo con baja precisión. Entonces, al considerar la precisión, hay que sopesar la simplicidad, la estabilidad y la explicabilidad empresarial.
Ingeniería de modelos: sopesando varios factores
8. ¿El modelo entrenado siempre puede no tener problemas?
Después de un minucioso modelado y pruebas, el cliente quería saber si la máquina lo tenía todo. Una pregunta común es si el modelo siempre estará libre de problemas y se adaptará a futuros cambios comerciales.
Desafortunadamente, las máquinas no pueden aprender de por vida. Requiere formación constante, normalmente revisión y formación cada pocas semanas o meses, como un estudiante que estudia mucho en su tiempo libre. La industria del análisis actual se está desarrollando y cambiando rápidamente, y los modelos deben mantenerse y actualizarse continuamente.
Etiqueta
En los proyectos de aprendizaje automático, los ocho malentendidos anteriores causarán dolores de cabeza a los científicos de datos. También ocurrirán problemas similares en las seis etapas del ciclo de vida del modelado del aprendizaje automático. abajo.
El ciclo de vida de los proyectos de aprendizaje automático
La razón del malentendido anterior es la falta de comprensión del proyecto y la incapacidad de comprender correctamente las prioridades. Los científicos de datos que comprenden estas razones deben hacer un mejor trabajo al explicarlas a sus clientes para que ambas partes puedan resolver mejor los problemas en lugar de llegar a acuerdos.