Resumen de vocabulario de big data
Se puede decir que Big Data es una de las tendencias más candentes en la industria de TI y ha generado una serie de nuevas tecnologías para procesar Big Data. Las nuevas tecnologías traen consigo nuevas palabras de moda: acrónimos, términos técnicos y nombres de productos. Incluso el término "grandes datos" en sí mismo resulta confuso. Cuando muchas personas escuchan "grandes datos", piensan que se refiere a "una gran cantidad de datos". El significado de grandes datos implica más que solo la cantidad de datos.
A continuación se muestran algunas palabras de moda que creemos que debería conocer, ordenadas alfabéticamente.
Ácido
El nombre completo de ACID es atomicidad, consistencia, aislamiento y durabilidad. En realidad, es un conjunto de requisitos o atributos: si se siguen estos cuatro aspectos, se pueden garantizar los datos. integridad de las transacciones de la base de datos durante el procesamiento. Aunque ACID existe desde hace algún tiempo, el rápido crecimiento de los datos de transacciones ha puesto mayor énfasis en cumplir con los requisitos de ACID al procesar big data.
Tres elementos del big data
Los sistemas de TI actuales están generando “enormes” cantidades de datos en términos de cantidad, velocidad y variedad.
Cantidad: IDC predice que la cantidad global de información alcanzará los 2,7 terabytes (equivalente a 2.700 millones de terabytes) este año, duplicándose cada dos años.
Velocidad: Los administradores de TI están preocupados no solo por el volumen de datos, sino también por el flujo constante de datos provenientes de sistemas financieros, sistemas minoristas, sitios web, sensores, chips de identificación por radiofrecuencia (RFID) y Tasa de crecimiento de redes sociales como Facebook y Twitter.
Categoría: Si nos remontamos hace 5 años, o tal vez hace 10 años, la gente de TI se ocupaba principalmente de datos alfanuméricos que podían almacenarse fácilmente en filas y columnas en bases de datos relacionales. Este ya no es el caso. Hoy en día, los datos no estructurados, como las publicaciones de Twitter y Facebook, diversos documentos y contenidos web, forman parte del mix de big data.
Bases de datos de columnas
Algunas bases de datos de nueva generación (como Cassandra de código abierto y la base de datos Vertica de HP) están diseñadas para almacenar datos en columnas en lugar de filas como las bases de datos SQL tradicionales. Este diseño proporciona un acceso al disco más rápido y mejora el rendimiento al procesar big data. Para los sistemas de aplicaciones de análisis empresarial con uso intensivo de datos, las bases de datos en columnas son especialmente populares.
Almacén de datos
El concepto de almacén de datos existe desde hace aproximadamente 25 años, refiriéndose específicamente a la copia de datos de múltiples sistemas de TI operativos a una base de datos auxiliar fuera de línea para el uso del sistema de aplicaciones de análisis empresarial.
Sin embargo, con el rápido crecimiento del volumen de datos, los sistemas de almacenamiento de datos también están cambiando rápidamente. Necesitan almacenar más datos y más tipos de datos, por lo que la gestión del almacén de datos se convierte en un gran problema. Hace diez o veinte años, los datos se podían copiar al sistema de almacenamiento de datos cada semana o cada mes; ahora los almacenes de datos se actualizan con mucha más frecuencia y algunos incluso se actualizan en tiempo real.
Extraer, transformar y cargar en el destino (abreviatura de extraer-transformar-cargar)
Al transferir datos desde una base de datos (como una base de datos que admita el procesamiento de transacciones de una aplicación bancaria) sistema) a Cuando se utiliza otra base de datos, como un sistema de almacenamiento de datos para análisis de negocios, se requiere software ETL. Cuando los datos se mueven de una base de datos a otra, a menudo es necesario reformatearlos y limpiarlos.
Debido al rápido crecimiento de los datos, la velocidad del procesamiento de datos se ha acelerado enormemente y los requisitos de rendimiento de las herramientas ETL también se han mejorado enormemente.
Waterway
Flume es una tecnología que pertenece a la familia Apache Hadoop (otras tecnologías incluyen HBase, Hive, Oozie, Pig y Whirr). Este marco se utiliza para completar datos para Hadoop. Esta tecnología utiliza agentes de software dispersos en servidores de aplicaciones, servidores web, dispositivos móviles y otros sistemas para recopilar datos y transferirlos al sistema Hadoop.
Por ejemplo, una empresa puede utilizar Apache Flume ejecutándose en un servidor web para recopilar datos de publicaciones de Twitter para su análisis.
Análisis geoespacial
Una de las tendencias que impulsa la tendencia del big data es que los sistemas de TI actuales generan y recopilan cada vez más datos geoespaciales.
Como dice el refrán, una imagen vale más que 1.000 palabras; por lo que no es de extrañar que el creciente número de mapas, gráficos, fotografías y otros contenidos basados en la ubicación sean un importante impulsor de la explosión actual de big data.
El análisis geoespacial es una forma especial de visualización de datos (consulte el elemento "Visualización" a continuación), que superpone datos en un mapa geográfico para ayudar a los usuarios a comprender los resultados del análisis de big data con mayor claridad.
Hadoop
Hadoop es una plataforma de código abierto para desarrollar aplicaciones distribuidas y con uso intensivo de datos. Está controlado por la Apache Software Foundation.
El inventor de Hadoop es Doug Cutting, el desarrollador de Yahoo! Desarrolló Hadoop basándose en el concepto MapReduce de Google Labs, que lleva el nombre del elefante de juguete de su hijo.
Además, HBase es una base de datos no relacional que se desarrolló como parte del proyecto Hadoop. El sistema de archivos distribuido Hadoop (HDFS) es un componente clave de Hadoop. Hive es un sistema de almacenamiento de datos basado en Hadoop.
Base de datos en memoria
Cuando una computadora procesa una transacción o realiza una consulta, normalmente obtiene datos de una unidad de disco. Pero cuando los sistemas de TI manejan big data, el proceso puede ser demasiado lento.
Los sistemas de bases de datos en memoria utilizan la memoria principal de la computadora para almacenar datos utilizados con frecuencia, lo que reduce en gran medida el tiempo de procesamiento. Los productos de bases de datos en memoria incluyen SAP HANA y la base de datos en memoria Oracle Timeten.
Lenguaje Java (un lenguaje informático, especialmente utilizado para crear sitios web)
Java es un lenguaje de programación desarrollado por Sun, una filial de Oracle Corporation, y lanzado en 1995. Muchas tecnologías de big data, como Hadoop, se desarrollan utilizando Java y siguen siendo la principal tecnología de desarrollo en el campo de big data.
Kafka
Kafka es un sistema de mensajería distribuida de alto rendimiento desarrollado originalmente en LinkedIn para gestionar flujos de actividad (datos sobre el uso del sitio web) y el proceso de procesamiento de datos que opera el sitio web del servicio (datos). sobre el rendimiento de los componentes del servidor).
Kafka es muy eficaz a la hora de procesar grandes cantidades de datos en streaming, lo cual es una cuestión clave en muchos entornos informáticos de big data. Storm desarrollada por Twitter es otra tecnología de procesamiento de transmisiones popular.
La Apache Software Foundation ha incluido a Kafka como un proyecto de código abierto. Por lo tanto, no crea que se trata de un software defectuoso.
Latencia
La latencia se refiere al retraso en la transmisión de datos de un punto a otro, o la cantidad de retraso en que un sistema (como una aplicación) responde a otro sistema.
Si bien la latencia no es un término nuevo, lo escuchará con más frecuencia ahora que los volúmenes de datos continúan aumentando y los sistemas de TI luchan por mantener el ritmo. En pocas palabras, la "latencia baja" es algo bueno y la "latencia alta" es algo malo.
Map/Reduce
Map/Reduce es un método para dividir un problema complejo en partes más pequeñas, luego distribuirlas a varias computadoras y finalmente volver a ensamblarlas en una respuesta.
El sistema de búsqueda de Google utiliza el concepto de mapeo/simplificación y la empresa tiene un marco llamado MapReduce.
Un documento técnico publicado por Google en 2004 describe su uso de mapeo/simplificación. Doug Catin, el padre de Hadoop, se dio cuenta plenamente de su potencial y desarrolló la primera versión de Hadoop que también tomó prestado el concepto de mapeo/simplificación.
Base de datos NoSQL
La mayoría de las bases de datos convencionales (como la base de datos Oracle y Microsoft SQL Server) se basan en una arquitectura relacional y utilizan lenguaje de consulta estructurado (SQL) para el desarrollo y la gestión de datos.
Pero la nueva generación de sistemas de bases de datos denominada "NoSQL" (algunos ahora la llaman "Más que SQL") se basa en una arquitectura que sus defensores creen que es más adecuada para manejar big data.
Algunas bases de datos NoSQL están diseñadas para brindar escalabilidad y flexibilidad, mientras que otras son eficientes en el procesamiento de documentos y otros datos no estructurados.
Las bases de datos NoSQL típicas incluyen Hadoop/HBase, Cassandra, MongoDB, CouchDB, etc., y algunos desarrolladores conocidos como Oracle también han lanzado sus propios productos NoSQL.
Oozie
Apache Oozie es un motor de flujo de trabajo de código abierto que ayuda a gestionar el procesamiento de Hadoop. Con Oozie, se pueden definir una serie de tareas en varios idiomas (como Pig y MapReduce) y luego relacionarlas entre sí. Por ejemplo, una vez que se completa el trabajo de recopilación de datos de aplicaciones operativas, los programadores pueden comenzar la tarea de análisis y consulta de datos.
Pig
Pig es otro proyecto de Apache Software Foundation. Esta plataforma se utiliza para analizar grandes conjuntos de datos. Básicamente, Pig es un lenguaje de programación que se puede utilizar para desarrollar consultas informáticas paralelas que se ejecutan en Hadoop.
Análisis de datos cuantitativos
El análisis de datos cuantitativos se refiere al uso de modelos matemáticos o estadísticos complejos para explicar el comportamiento financiero y empresarial e incluso predecir el comportamiento futuro.
El análisis de datos cuantitativos se ha vuelto más complejo debido al dramático aumento en la cantidad de datos recopilados en la actualidad. Sin embargo, si las empresas saben cómo utilizar grandes cantidades de datos para obtener una mejor visibilidad, una comprensión más profunda del negocio de la empresa y conocimientos sobre las tendencias del mercado, se espera que más datos brinden más oportunidades en el análisis de datos.
Uno de los problemas es que existe una grave escasez de personas con este tipo de habilidades analíticas. La conocida consultora McKinsey afirmó que solo en Estados Unidos se necesitan 65.438+05.000 analistas y gerentes con habilidades de análisis de big data.
Base de datos relacional
El sistema de gestión de bases de datos relacionales (RDBM) es la base de datos más utilizada en la actualidad, incluidas DB2 de IBM, SQL Server de Microsoft y la base de datos Oracle. Desde aplicaciones bancarias hasta sistemas de punto de venta de tiendas minoristas y aplicaciones de gestión de inventario, la mayoría de los sistemas de procesamiento de transacciones empresariales se ejecutan en RDBM.
Sin embargo, algunos argumentan que es posible que las bases de datos relacionales no puedan mantenerse al día con la explosión de volúmenes y tipos de datos. Por ejemplo, RDBM se diseñó originalmente para manejar datos alfanuméricos, pero no es igualmente efectivo cuando maneja datos no estructurados.
Dividido en partes
A medida que la base de datos crece, se vuelve cada vez más difícil manejarla. La fragmentación es una técnica de partición de bases de datos que divide una base de datos en partes más pequeñas y manejables. Específicamente, la base de datos se divide horizontalmente para administrar diferentes filas en las tablas de la base de datos por separado.
El método de fragmentación permite distribuir fragmentos de una base de datos grande en múltiples servidores, mejorando así la velocidad operativa general y el rendimiento de la base de datos.
Además, Sqoop es una herramienta de código abierto para mover datos de fuentes que no son Hadoop (como bases de datos relacionales) a un entorno Hadoop.
Análisis de texto
Uno de los factores que contribuyen al problema del big data es la creciente cantidad de texto recopilado de sitios de redes sociales como Twitter y Facebook, fuentes de noticias externas e incluso empresas internas. para análisis analizar. Dado que el texto son datos no estructurados (a diferencia de los datos estructurados que normalmente se almacenan en bases de datos relacionales), las principales herramientas de análisis empresarial a menudo resultan indefensas cuando se enfrentan al texto.
El análisis de texto utiliza una variedad de métodos (búsquedas de palabras clave, análisis estadístico, investigación lingüística, etc.) para obtener información a partir de datos basados en texto.
Datos no estructurados
No hace mucho, la mayoría de los datos eran datos estructurados, y esta información alfanumérica (como datos financieros de transacciones de ventas) se almacenaba fácilmente en bases de datos relacionales y se analizaba por empresa. herramientas de inteligencia.
Pero hoy en día, una gran parte de los 2,7 gigabytes de datos almacenados son datos no estructurados, como documentos de texto, mensajes de Twitter, fotografías publicadas en Flickr y vídeos publicados en YouTube, etc. (Curiosamente, cada minuto se suben a YouTube 35 horas de contenido de vídeo. Procesar, almacenar y analizar todos estos datos desordenados y no estructurados suele ser un desafío para los sistemas de TI actuales.
Visualización
A medida que los datos crecen, se vuelve cada vez más difícil entenderlos mediante cuadros y gráficos estáticos. Esto ha llevado al desarrollo de una nueva generación de herramientas de visualización y análisis de datos que pueden presentarlos de nuevas maneras, lo que ayuda a las personas a comprender cantidades masivas de información.
Estas herramientas incluyen: mapas de calor codificados por colores, gráficos 3D, visualizaciones animadas que muestran cambios a lo largo del tiempo y presentaciones geoespaciales que superponen datos en un mapa geográfico. Las herramientas avanzadas de visualización de datos actuales también son más interactivas, lo que permite a los usuarios acercarse a un subconjunto de datos y examinarlos más de cerca, por ejemplo.
whirr
Apache Whirr es un conjunto de bibliotecas de clases Java para ejecutar servicios en la nube de big data. Más específicamente, acelera el proceso de desarrollo de clústeres de Hadoop en infraestructura virtual como Amazon Elastic Compute Cloud (EC2) y Rackspace.
Lenguaje de marcado extensible
El lenguaje de marcado extensible (XML) se utiliza para transmitir y almacenar datos (no debe confundirse con HTML, que se utiliza para mostrar datos). Con la ayuda de XML, los programadores pueden crear formatos de datos comunes y disfrutar de información y formatos a través de Internet.
Debido a que los documentos XML pueden ser muy grandes y complejos, a menudo se los cita como causantes de grandes desafíos de datos para los departamentos de TI.
Yottabyte
Yottabyte es una medida de almacenamiento de datos equivalente a 1000 zeta bytes. Según estimaciones de la conocida organización de investigación IDC, se espera que la cantidad total de datos almacenados a nivel mundial este año alcance los 2,7 zebytes, un aumento del 48% respecto a 2011. Por lo tanto, todavía nos queda un largo camino por recorrer para alcanzar la marca de Yaobyte, pero a juzgar por la tasa de crecimiento actual de big data, ese día puede llegar antes de lo que pensamos.
Por cierto, 1 zebytes equivale a 1021 bytes de datos. Equivale a 1.000 terabytes (EB), 10 millones de terabytes (PB) y 100 mil millones de terabytes (TB).
ZooKeeper
ZooKeeper es un servicio creado por Apache Software Foundation para ayudar a los usuarios de Hadoop a administrar y coordinar nodos de Hadoop en redes distribuidas.
ZooKeeper está estrechamente integrado con HBase, que es una base de datos relacionada con Hadoop. ZooKeeper es un servicio centralizado para mantener información de configuración, servicios de nombres, sincronización distribuida y otros servicios grupales. Los administradores de TI lo utilizan para implementar mecanismos de mensajería confiables, ejecución de procesos sincronizados y servicios redundantes.