Ocho consejos para mejorar la eficiencia del análisis de datos
Acabo de conectarme con un viejo amigo. Siempre ha estado interesada en la ciencia de datos, pero solo se aventuró en este campo hace 10 meses cuando se unió a una organización como científica de datos. Claramente siento que ha aprendido mucho en su nuevo puesto. Pero mientras conversábamos, ella mencionó un hecho o una pregunta que aún persiste en mi mente. No importa qué tan bien se desempeñara, dijo, cada proyecto o tarea analítica tuvo que realizarse muchas veces antes de que su gerente quedara satisfecho. ¡También mencionó que a menudo se da cuenta después de que no tomó tanto tiempo!
¿Se parece esto a lo que te pasó? ¿Lo analizarás muchas veces antes de dar con una respuesta decente? ¿O escribes código para actividades similares una y otra vez? Si es así, este artículo es para ti. Permítanme compartir algunas formas de mejorar la eficiencia y reducir la duplicación innecesaria de trabajo.
Nota: No me malinterpretes. No digo que la iteración sea mala. Este artículo se centra en cómo identificar qué iteraciones son necesarias y cuáles son innecesarias y deben evitarse.
¿Qué causa la duplicación de esfuerzos en el análisis de datos? No creo que sea necesario repetir el análisis sin agregar nueva información (con una excepción que se menciona más adelante). Se pueden evitar las siguientes tareas repetitivas:
El diagnóstico de los problemas del cliente está sesgado, no puede satisfacer las necesidades y es necesario rehacerlo. El propósito del análisis iterativo es recopilar más variables que antes pensaba que no eran necesarias. Los sesgos o suposiciones que afectan sus actividades de análisis no se consideraron antes, pero si se consideran más adelante, deberá rehacerlos. ¿Qué iteraciones son necesarias? Aquí hay dos ejemplos. Primero, construye un modelo 6 meses después y luego tiene nueva información, por lo que las iteraciones resultantes son saludables. En segundo lugar, se comienza deliberadamente con un modelo simple y gradualmente se comprende y construye un modelo más complejo.
Lo anterior no cubre todas las situaciones posibles, pero creo que estos ejemplos son suficientes para ayudarle a juzgar si su iteración de análisis es saludable.
¿El impacto de estos asesinos de la productividad? Una cosa sí sabemos: nadie quiere que aparezcan iteraciones nocivas ni factores perjudiciales para la productividad en los análisis. No todos los científicos de datos están felices de ejecutar todo el análisis una y otra vez mientras agregan variables.
Los analistas y científicos de datos pueden frustrarse profundamente y carecer de una sensación de logro debido a iteraciones poco saludables e ineficiencias. Entonces hagamos todo lo que podamos para evitarlos.
Consejo: Cómo evitar iteraciones nocivas y mejorar la eficiencia Consejo 1: Céntrese únicamente en los problemas importantes.
¡Cada organización tiene muchos pequeños problemas que pueden resolverse con datos! Pero el objetivo principal de contratar un científico de datos no es resolver estos pequeños problemas. Si desea utilizar buen acero en la vanguardia, debe seleccionar tres o cuatro problemas de datos que tengan el mayor impacto en toda la organización y entregárselos a los científicos de datos para que los resuelvan. Estas preguntas son generalmente desafiantes y le brindarán la mayor ventaja para sus actividades de análisis (ya sea con retornos completos o sin retornos, piense en pedir dinero prestado y negociar acciones). No deberías resolver problemas pequeños cuando los problemas más grandes no se resuelven.
No parece mucho, pero en realidad ¡a muchas instituciones no les va bien! Veo que muchos bancos hacen marketing en lugar de análisis de datos para mejorar las puntuaciones de riesgo. En lugar de utilizar análisis de datos para mejorar la retención de clientes, algunas compañías de seguros están intentando crear programas de incentivos para las agencias.
Consejo 2: Crea una presentación de análisis de datos (posible diseño y estructura) desde el principio.
He estado haciendo esto y me he beneficiado mucho. Establecer el marco para el informe de análisis debe ser lo primero que haga después de que comience el proyecto. Esto puede parecer contradictorio, pero una vez que adquieras el hábito, ahorrarás tiempo.
¿Cómo construir un framework? Puedes usar ppt, word o un párrafo para construir el marco, la forma no importa. Es importante plantear todos los escenarios posibles desde el principio. Por ejemplo, si está tratando de reducir su tasa de cancelación de deudas incobrables, podría demostrarlo de la siguiente manera:
A continuación, puede considerar cómo cada factor afecta su tasa de cancelación de deudas incobrables. Por ejemplo, la tasa de cancelación de deudas incobrables de un banco aumenta debido a un aumento en los límites de crédito de los clientes. Usted puede:
Primero, asegurarse de que los clientes cuyos límites de crédito no hayan aumentado no estén provocando un aumento en las tasas de cancelación de deudas incobrables.
A continuación, utilice una fórmula matemática para medir este impacto.
Una vez que hayas considerado cada rama del análisis, habrás creado un buen punto de partida.
Consejo 3: Defina los requisitos de datos con antelación.
Los requisitos de datos provienen directamente de los resultados del análisis final. Si ha planificado completamente qué análisis va a realizar y qué resultados va a producir, entonces sabe cuáles son sus requisitos de datos. A continuación se ofrecen algunos consejos que le ayudarán:
Intente dar una estructura a sus requisitos de datos: en lugar de simplemente escribir una lista de variables, debe pensar claramente qué tablas necesitará para sus actividades de análisis. Tomando como ejemplo el aumento de la tasa de cancelación de deudas incobrables, necesitará información como datos demográficos de los clientes, estadísticas de actividades de marketing anteriores, registros de transacciones de clientes en los últimos 12 meses, documentos de cambio de política de crédito bancario, etc.
Recopile todos los datos que pueda necesitar: incluso si no está 100% seguro de si necesita todas las variables, debe recopilar todos los datos en esta etapa. Hacer esto requiere mucho trabajo, pero es más eficiente que agregar variables más adelante en el proceso para recopilar datos.
Define el intervalo de tiempo para el que estás interesado en los datos.
Consejo 4: Asegúrate de que tu análisis sea reproducible.
Este consejo puede parecer sencillo, pero puede resultar difícil de dominar tanto para principiantes como para analistas avanzados. Los principiantes utilizarán Excel para cada paso de la actividad, incluido copiar y pegar datos. Para usuarios avanzados, es posible que cualquier trabajo realizado a través de la interfaz de línea de comandos no sea reproducible.
Del mismo modo, debes tener mucho cuidado al utilizar tu portátil. Debes limitarte a modificar los pasos anteriores, especialmente si los datos anteriores ya se utilizan en pasos posteriores. El Bloc de notas es muy poderoso para mantener este tipo de flujo de datos que implica la verificación cruzada de relaciones entre los datos anteriores y posteriores. Pero si este flujo de datos no se mantiene en el Bloc de notas, es muy inútil.
Consejo 5: Crea una base de código estándar.
El funcionamiento sencillo no requiere reescritura repetida del código. Esto no sólo es una pérdida de tiempo, sino que también puede provocar errores gramaticales. Otro consejo es crear una base de código estándar para operaciones comunes y compartirla con todo el equipo.
Esto no solo garantiza que todo el equipo utilice el mismo código, sino que también los hace más eficientes.
Consejo 6: Construya un data mart intermedio.
Muchas veces, necesitarás la misma información una y otra vez. Por ejemplo, utilizará todas las compras con tarjeta de crédito de sus clientes en múltiples análisis e informes. Aunque puede extraer datos de las tablas de registros de transacciones en todo momento, crear un data mart intermedio que contenga estas tablas puede ahorrar tiempo y esfuerzo de manera efectiva. De manera similar, no es necesario consultar y extraer la tabla de resumen de la actividad de marketing cada vez.
Consejo 7: Utilice muestras reservadas y validación cruzada para evitar el sobreajuste.
Muchos principiantes subestiman el poder de la retención de muestras y la validación cruzada. Mucha gente tiende a creer que mientras el conjunto de entrenamiento sea lo suficientemente grande, casi no habrá sobreajuste, por lo que no hay necesidad de validación cruzada ni retención de muestras.
Con este tipo de pensamiento, las cosas muchas veces terminan saliendo mal. No soy el único que dice esto: puedes consultar las tablas de clasificación públicas o privadas de cualquier competencia en Kaggle. Descubrirá que cuando algunas personas entre los diez primeros ya no encajan, su clasificación ya no baja. Puedes imaginar que estos son científicos de datos de alto nivel.
Consejo 8: Trabaja concentradamente durante un período de tiempo y toma descansos regulares.
Para mí, el mejor estado de trabajo es concentrarme en resolver un problema o proyecto durante 2-3 horas. Como científico de datos, es difícil realizar múltiples tareas. Debe hacer todo lo posible para afrontar un problema. Para mí, un período de tiempo de 2 a 3 horas es el más eficiente y puedes configurarlo tú mismo según tus circunstancias personales.
Posdata Las anteriores son algunas de las formas en que mejoro la eficiencia en el trabajo. No me estreso por hacer las cosas bien la primera vez, pero debes desarrollar el hábito de hacerlo bien cada vez, para que puedas convertirte en un científico de datos profesional.
¿Tiene alguna buena manera de mejorar la eficiencia en el trabajo? Por favor deje un mensaje en los comentarios a continuación.
Título original: 8 consejos de productividad para científicos de datos y analistas de negocios
Notas de traducción 1, ¿entiendes? ¿arriba? ¿Qué usar? Alguien (abreviatura de alguien) también se refiere a restablecer el contacto con alguien, lo que equivale a convertirse en? ¿actual? ¿Qué usar? ¿Qué? ¿Ir? ¿abierto? ¿existir? ¿De alguien? ¿Vida? ¿cuando? Y tú. ¿No? ¿Has estado allí? ¿existir? ¿tocar? ¿para qué? ¿respuesta? Durante...
Entonces, ¿qué significa esta frase? "Es genial estar en contacto (conocer/conocer) contigo nuevamente", especialmente cuando no te hemos visto ni contactado por un tiempo.
2. Asesino, asesino de la productividad, factores que reducen la productividad, factores que obstaculizan la mejora de la productividad.
3. La tasa de cancelación de deudas incobrables es un indicador importante en la industria de las tarjetas de crédito. Se divide por el índice anualizado del total de cuentas por cobrar de tarjetas de crédito a principios de mes y se utiliza principalmente para. medir el nivel crediticio de los activos.
4. ¿La marca en la ilustración? ¿Estrategia? Los cambios en la estrategia de marca pueden conducir a un aumento en la tasa de cancelación de deudas incobrables. Por ejemplo, la adopción de una estrategia de marca competitiva o de marca marginal puede conducir a un aumento en la tasa de cancelación de deudas incobrables.
5. Estrategia de marca:
Imagen de marca. En la competencia de marcas, la imagen de marca puede ganarse efectivamente la confianza del público, generar un buen efecto de "boca a boca", desempeñar un papel extremadamente importante en la acumulación y mejora del capital de marca y promover la promoción de otras marcas de la empresa. Por ejemplo, "Nestlé" de Nestlé, como marca matriz, es una marca de imagen que desempeña un papel eficaz en la promoción de muchas de sus submarcas. Por tanto, la estrategia de gestión de marca de la empresa no puede prescindir de la imagen de marca. Las marcas competitivas normalmente se lanzan para productos similares en el mercado y romperán las líneas de defensa de los competidores o abrirán nuevos mercados objetivo a través de su posicionamiento especial en el mercado, como tecnología, precio o características de servicio. Obviamente, el objetivo principal de las marcas competidoras es ganar más participación de mercado para la empresa y crear ventajas competitivas para la empresa. Es posible que estas marcas no aporten muchos beneficios a la empresa ahora, pero tienen un enorme potencial de desarrollo y son la clave y la esperanza para que las empresas participen en la competencia de marcas en el mercado futuro. Las marcas rentables son la pieza central de las operaciones multimarca de una empresa. Las marcas rentables generan beneficios para las empresas, lo cual es una característica importante de la gestión de marcas moderna. Las marcas rentables son generalmente representantes de la tecnología única de una empresa (la competitividad central de la empresa). Es difícil para los competidores ingresar a este campo en un corto período de tiempo y crear mayores márgenes de ganancia o incluso ganancias excesivas para la empresa. Por supuesto, si dichas marcas no se actualizan y mejoran, pueden entrar en un período de declive. Las marcas perimetrales son un complemento necesario para la estrategia de gestión multimarca de una empresa.
Las marcas marginales no son marcas de imagen corporativa ni marcas competitivas y es difícil generar ganancias a partir de su apariencia. Sin embargo, debido a que tienen una determinada base de clientes, no requieren una inversión tan alta como otras marcas. Por lo tanto, incluso si las ventas de esta marca se estancan o disminuyen lentamente, todavía hay un grupo de consumidores leales que no renunciarán a esta marca. La función de las marcas de vanguardia es crear recursos residuales, brindar apoyo de recursos para las marcas competitivas, las marcas de imagen y las marcas rentables de la empresa, y ayudar a compensar los gastos operativos fijos de la empresa. 6. ¿La “adquisición” en la ilustración? Adquisición "impulsada" significa (1) fusiones y adquisiciones; (2) adquisición de libros y materiales (mediante la compra e intercambio de libros, etc.); etc.) .Por ejemplo, ¿recopilación de datos se refiere a la recopilación de datos?
7. ¿La "flor" en la ilustración? "Simulación", el traductor simplemente la tradujo como "simulación de costos" según el contexto. . En el motor de búsqueda de Ask.com no hay ningún contenido correspondiente. ¿El sitio web le pide que busque? Simulación gastada es un juego interactivo lanzado por una organización sin fines de lucro para ayudar a las personas sin hogar y a los pobres. Los jugadores gastan 65.438 dólares estadounidenses + 0.000 yuanes para vivir un mes para simular la vida de una persona pobre. Los jugadores enfrentarán muchas opciones al participar en juegos interactivos, como ¿cubrir? ¿eso? ¿el más bajo? ¿abierto? ¿su? ¿Crédito? ¿tarjeta? ¿aún? ¿Pagar? ¿eso? ¿alquilar? ¿Tarjeta de crédito o alquiler? El juego se celebró por primera vez en febrero de 2011 y ha sido jugado más de 4 millones de veces por 2 millones de personas en 218 países. Si un cliente participa en tales actividades, puede resultar en un retraso en el pago de la tarjeta de crédito. Enlace de referencia: http://umdurham.org/? https://en.Wikipedia.org/wiki/spend_(online_game)#cite_note-2
8. Demanda, demanda de datos, ¿y relacionado con eso está el mercado? ¿Demanda, producción? Requisitos, donde los requisitos del producto están estrechamente relacionados con los requisitos de datos. Porque los requisitos de datos se desarrollan con la lógica empresarial del producto. Para recopilar datos sobre un producto, es necesario comprender la lógica empresarial del producto, como la interacción entre funciones y la lógica empresarial de una única función. En segundo lugar, se nombra la lógica empresarial, se identifican y priorizan los nodos importantes. En tercer lugar, codificar servicios basados en nodos implica principalmente agregar eventos y parámetros estadísticos a los nodos importantes enumerados (nodos que requieren estadísticas). Finalmente, forme un documento de requisitos de datos.
9. ¿Más? ¿a menudo? ¿Comparar? No es frecuente
Después de leer y traducir este artículo, siento que los analistas de datos pueden aprender de dos aspectos. Una es aprender de la industria tradicional de consultoría de gestión. Las capacidades requeridas por DA incluyen las capacidades de resolución de problemas de la industria de consultoría tradicional más capacidades de procesamiento de datos. Por ejemplo, el segundo consejo de este artículo es similar a un método importante en el pensamiento estructurado de la industria de la consultoría. Considere "¿Lógica?" de Barbara Minto. ¿existir? escribiendo,? ¿pensar? Entonces qué. ¿pregunta? Solving (traducción al chino: Principio de la Torre Dorada: la lógica de pensar, expresar y resolver problemas), este libro es un material de capacitación clásico de McKinsey. Presenta muchos métodos prácticos para ayudar a los lectores a concentrarse claramente en el pensamiento y la expresión, con una lógica y una clave claras. puntos claros. En segundo lugar, podemos inspirarnos en la planificación tradicional de recursos de datos. El tercer punto de este artículo sugiere que cómo determinar los requisitos de datos, puede consultar el método sistemático de obtener requisitos de datos a partir de los requisitos comerciales y modelar negocios y datos en la planificación de recursos de datos tradicional. Para obtener más detalles, puede consultar el "del profesor Gao Fuxian". Planificación de recursos de información: Información "Proyectos básicos para la construcción de civilizaciones".
Al final de este artículo se menciona el trabajo y el descanso, que varían de persona a persona. Creo que debemos prestar atención a los siguientes puntos:
El primero es evaluar la eficiencia general. Una o dos veces por semana es extremadamente eficiente, pero la eficiencia general puede no ser tan buena como mantener un ritmo estable durante toda la semana. Puedes intentar utilizar Pomodoro como herramienta de gestión del tiempo para analizar cuantitativamente tu propia situación;
El segundo es ajustar tus hábitos de vida. El análisis de datos requiere mucha energía y hay muchos factores que afectan la energía, como comer en exceso, que puede tener efectos negativos.
La tercera es prestar atención a la respiración. Si cuando somos eficientes, nuestro cuerpo y nuestra mente están cómodos y nuestra respiración es natural, entonces este estado es sostenible. Si a menudo contienes la respiración mientras te concentras, este enfoque está más orientado al consumo. El entrenamiento de meditación y atención plena puede ayudar.
Trabajar es como correr una maratón. El objetivo de algunas personas no es correr rápido, sino correr mucho, con la esperanza de llegar a los 60 años. Estas personas necesitan controlar su frecuencia cardíaca más que aumentar su velocidad. Algunas personas quieren mejorar su rendimiento lo más rápido posible y correr para varios eventos importantes, por lo que voluntariamente asumen el costo del aumento de radicales libres. Lo mismo ocurre con el análisis de datos. Cualquiera que sea el objetivo que te propongas, así es como corres.
Lo anterior es el contenido relevante de los ocho consejos que el editor comparte con usted para mejorar la eficiencia del análisis de datos. Para obtener más información, puede seguir a Global Ivy para compartir más información detallada.