¿Cómo deberían las empresas tomar decisiones sobre la infraestructura de big data?
Cómo deberían tomar decisiones las empresas sobre la infraestructura de big data
Si pregunta a diez empresas qué infraestructura necesitan utilizar para ejecutar cargas de trabajo de big data, probablemente obtendrá diez respuestas diferentes. Casi no existen principios a seguir en este campo, ni siquiera mejores prácticas a las que recurrir.
Ya sea en términos de recursos o experiencia, el análisis de big data se ha convertido en un verdadero problema en el campo de la infraestructura. Como sugiere el nombre, la recopilación de datos a la que se dirigen las herramientas de análisis de big data será de gran tamaño y requerirá una gran cantidad de recursos informáticos, de almacenamiento y de red para cumplir con los requisitos de rendimiento. Sin embargo, estas herramientas de big data generalmente son desarrolladas por empresas de muy gran escala. Estas empresas no tienen el mismo nivel de problemas de seguridad y alta disponibilidad que las empresas comunes deben considerar, y las empresas de TI convencionales aún no han comprendido profundamente estas herramientas. Además, la popularidad del big data en la incertidumbre en términos de retorno de la inversión ha hecho que muy pocas empresas estén dispuestas a invertir en big data.
Además, incluso algunas empresas que han ejecutado clústeres de big data en Hadoop, Spark y productos similares, encontrarán desafíos técnicos y comerciales en la infraestructura de big data.
Big data trae grandes problemas
Un gran proveedor de telecomunicaciones está construyendo un nuevo servicio digital, que se espera que se lance oficialmente a finales de este año, y se está preparando para utilizar Hadoop para analizar este Contenido, uso e ingresos (publicidad) generados por los Servicios. Pero como el servicio es nuevo, es difícil analizar qué infraestructura de big data se debe utilizar, afirmó el vicepresidente de tecnología a cargo del proyecto.
“Es imposible hacer ninguna planificación de capacidad para un proyecto que aún no se ha lanzado”, afirmó.
De hecho, muchos proyectos de big data todavía están en su infancia. "La naturaleza de la mayoría de los proyectos de big data es menor de lo que pensábamos", afirmó Andrew Warfield, CTO de Coho Data, un proveedor de infraestructura de almacenamiento escalable.
Incluso si las empresas aún no comprenden completamente la tecnología de big data, esto no significa que no deban invertir en big data. "Pero utilizar este tipo de tecnología puede ser muy arriesgado, y es importante darse cuenta de ello de antemano", dijo Warfield, quien cree que las empresas deberían considerar los factores de infraestructura de antemano.
Para el proveedor de telecomunicaciones, adoptarán un enfoque incremental, utilizando software de BlueData Software para ejecutar grandes clústeres de datos en entornos de hardware básicos, de modo que puedan utilizar los datos existentes a los que se accede en el sistema de almacenamiento.
Datos ubicuos
Si los datos provienen de la nube, entonces, por supuesto, se pueden analizar directamente en la nube; si todos los datos son locales, entonces la infraestructura subyacente también debería serlo; local. . Pero si los datos están dispersos en diferentes lugares, sin duda la infraestructura será más compleja.
Los servicios del proveedor de telecomunicaciones utilizarán tanto la nube como datos locales. Para cualquier solución de big data, poder admitir ambas fuentes de datos es importante por motivos de cumplimiento, ahorro de tiempo y consideraciones de ancho de banda de la red. "Sincronizar datos en un entorno de producción es algo muy difícil", dijo el vicepresidente. "Queremos apuntar todas las instancias a una única fuente de datos".
Además, aunque los científicos de datos quieren la información. Para ser analizado está disponible, pero no se puede utilizar en este momento porque se encuentra en una infraestructura de almacenamiento que es inaccesible a las herramientas informáticas de big data, dijo Warfield. Una solución es que el hardware de almacenamiento exponga estos datos mediante un protocolo como el sistema de archivos distribuido Hadoop o una API RESTful.
Tenga en cuenta la latencia
Para el análisis de big data de tipo característica, el tiempo que lleva mover datos desde la matriz de almacenamiento al entorno informático tendrá un impacto grave en el rendimiento. Pero, ¿qué pasaría si en lugar de mover datos a través de toda la red al entorno informático, las aplicaciones se acercaran a los datos para reducir la latencia?
Acercar el entorno informático a los datos no es un concepto nuevo, pero ahora existe una forma sin precedentes de lograrlo: Docker.
Por ejemplo, Coho Data e Intel han demostrado la eficacia de este concepto mediante la cooperación. En una gran empresa de servicios financieros, el formato Docker se utiliza para encapsular nodos informáticos y luego ejecutar cargas de trabajo de Hadoop directamente en ellos.
Ejecutar contenedores Docker directamente en la matriz de almacenamiento significa analizar datos cercanos directamente, sin la necesidad de mover datos a través de la red, mientras se aprovechan los recursos informáticos disponibles. "En comparación con otras plataformas de almacenamiento, las plataformas de big data suelen tener un alto uso de CPU", afirmó Warfield. "Y si agrega flash a la mezcla, la pregunta es: '¿Cómo puedo obtener más valor de este recurso?'".
Ejecutar aplicaciones en contenedores directamente en la matriz de almacenamiento es algo muy interesante, pero la carga debe evaluarse cuidadosamente con anticipación para garantizar que se adaptará bien al entorno actual, dijo Bubba Hines, vicepresidente de Signature Tech Studios, que brinda servicios de gestión de documentos a la industria de la construcción. El servicio se basa en Amazon Web Services y utiliza servicios de almacenamiento de Zadara Storage. La compañía comenzó recientemente a evaluar el nuevo Zadara Container Service, en el que las aplicaciones en contenedores se ejecutan en matrices de almacenamiento y tienen acceso directo a los discos locales. Según Hines, ahora existen varios casos de uso posibles: ejecutar una versión en contenedores de su software de recuperación ante desastres en una matriz de almacenamiento para monitorear continuamente los cambios en los datos del usuario y las cargas de trabajo, alterar o validar los datos del almacenamiento primario.
Pero no tendría sentido utilizar Zadara Container Service para procesar todos los datos. El sistema de Signature Tech Studio está realizando la transformación de datos según lo planeado y se ha contenedorizado a gran escala. Pero "probablemente no traslademos todos los contenedores Docker a Zadara Container Service porque no tiene sentido en términos de volumen y escala", dijo Hines. "Debemos buscar cargas de trabajo que realmente puedan beneficiarse de una latencia reducida".
Lo anterior es el contenido relevante compartido por el editor sobre cómo las empresas deben tomar decisiones en la infraestructura de big data, y más. Para obtener información, siga Global Ivy compartirá más información útil