¿Todos los big data son valiosos?
Big data no necesariamente equivale a buenos datos. Cada vez más expertos creen firmemente que big data no producirá automáticamente buenos resultados de análisis. Si los datos están incompletos, fuera de contexto o destruidos, pueden llevar a decisiones equivocadas por parte de la empresa, debilitando así su competitividad o afectando la vida diaria de los usuarios.
——Gary King, profesor de la Universidad de Harvard y director del Instituto de Ciencias Sociales Cuantitativas de Estados Unidos, una vez sacó de contexto una cita y obtuvo resultados erróneos. Lanzó un proyecto de análisis de big data para predecir la tasa de desempleo de Estados Unidos mediante la detección de palabras clave como "empleos", "desempleo" y "categorización" en Twitter y otras publicaciones de redes sociales.
Utilizando la tecnología de análisis de sentimiento, la organización recopiló publicaciones de Twitter y otras redes sociales que contenían estas palabras clave para ver si los aumentos o disminuciones en estas publicaciones estaban asociados con la tasa de desempleo mensual.
Mientras monitoreaban este contenido, los investigadores observaron un fuerte aumento en el número de publicaciones que contenían una de las palabras clave ("trabajos"), pero luego descubrieron que esto no tenía nada que ver con la tasa de desempleo porque Steve Jobs (cuyo nombre también significa "trabajo") ignoró la noticia de su muerte. Deberíamos aprender de este ejemplo y no depender únicamente de big data “mágicos” para guiar las decisiones.
El doble significado de "Empleos" es sólo uno de muchos incidentes similares que han encontrado las personas que trabajan en este campo, dijo King. "Estas listas de palabras clave pueden funcionar a corto plazo, pero tienden a fallar catastróficamente a largo plazo", dijo. "Se puede resolver el problema agregando palabras clave adicionales, pero eso requiere mucha participación humana". /p>
Puedes ingresar algunos puntos clave en la página social de Bing y verás algunas cosas relevantes o irrelevantes. Si no cambia la consulta, con el tiempo encontrará que los temas que contienen estas palabras clave se desvían gradualmente del tema hasta cierto punto, a veces ligeramente, a veces mucho. "
Pero Kim dijo que, en general, una gran cantidad de análisis de big data están produciendo contenido útil. Kim Jones, director de seguridad y vicepresidente senior de Vantiv, dijo que este no es un problema nuevo, pero que puede convertirse en un problema. serio si la gente piensa que grandes cantidades de datos pueden producir milagrosamente buenos resultados analíticos. Señaló: "El ejemplo de Jobs es un caso clásico, los datos en sí no equivalen a sabiduría.
King cree que el contenido es clave. Es el científico jefe y cofundador de Crimson Hexagon, una empresa de análisis de big data. En palabras de Wayne St. Ammann, vicepresidente ejecutivo de marketing. La empresa tiene como objetivo proporcionar conversaciones en línea que proporcionen "contenido, significado y estructura".
Sin embargo, cada vez más datos sin contenido están impulsando el proceso de toma de decisiones, informó el Wall Street Journal en febrero que las compañías de seguros de salud están utilizando. big data para sus usuarios. Crear un perfil. Una de las piezas de información que la empresa rastrea es un historial de compra de ropa extragrande, lo que podría generar recomendaciones para programas de pérdida de peso.
Nadie piensa que sea así. Es incorrecto alentar a las personas a vivir una vida más saludable. Los problemas de privacidad involucrados son preocupantes. Esta persona podría estar comprando ropa extragrande para otro miembro de la familia, y este problema de privacidad podría tener implicaciones aún más graves. En 2008, Bloomberg Businessweek informó que alguien lo había hecho. para comprar medicamentos recetados. El historial de compra de medicamentos de la persona mostró que tenía problemas leves de salud mental y la compañía de seguros le negó el seguro médico.
Adam Frank señaló en su blog que en algunos casos, los bancos. negará préstamos a personas debido a sus conexiones en el sitio de redes sociales LinkedIn o Facebook. Si su amigo incumple, su reputación también puede verse afectada por su reputación, según la Política Avanzada de la Unión Estadounidense de Libertades Civiles, Jay Stanley, señaló que "el crédito". Las compañías de tarjetas a veces reducen los límites de los consumidores debido al historial crediticio de otros consumidores.
Kim Jones dice que sacar conclusiones de las correlaciones sin más análisis lo mete en problemas.
“A finales de los años 1980 y principios de los 1990, los datos mostraban que los hombres hispanos y negros de entre 20 y 27 años que conducían automóviles de lujo básicos tenían más probabilidades de ser traficantes de drogas y, dentro de ese criterio, yo era muy estadounidense. En ese rango de edad también conducía un automóvil así en ese momento, pero no era un traficante de drogas".
Dijo: "No podemos confiar únicamente en el análisis de datos, lo que puede dar lugar a algunas inexactitudes. resultados si ignora el elemento humano del análisis, su tasa de error será muy alta."
En resumen, big data es una herramienta, pero no debe verse como una solución. "Esto ayuda a reducirlo de unos pocos millones a alrededor de 150", dijo Jones. "Pero no podemos dejar que la computadora haga todo el juicio, porque al final podría causarle problemas".