¿Cuáles son las herramientas de análisis de big data?
Hadoop es un marco de software que puede distribuir grandes cantidades de datos. Pero Hadoop lo maneja de forma confiable, eficiente y escalable. Hadoop es confiable porque supone que los elementos informáticos y el almacenamiento fallarán, por lo que mantiene múltiples copias de los datos de trabajo para garantizar que el procesamiento pueda redistribuirse para los nodos fallidos. Hadoop es eficiente porque funciona de forma paralela, acelerando así el procesamiento. Hadoop también es escalable y puede manejar petabytes de datos. Además, Hadoop depende de servidores comunitarios, por lo que el costo es relativamente bajo y cualquiera puede usarlo.
2. HPCC
Abreviatura de HPCC, informática y comunicaciones de alto rendimiento. En 1993, el Comité Coordinador Federal de Ciencia, Ingeniería y Tecnología de Estados Unidos lo presentó al Congreso. Desafíos clave: ¿Computación y comunicaciones de alto rendimiento? El informe, también conocido como plan HPCC, es el proyecto científico estratégico del presidente de Estados Unidos que tiene como objetivo resolver una serie de importantes desafíos científicos y tecnológicos mediante el fortalecimiento de la investigación y el desarrollo. HPCC es un plan para implementar la superautopista de la información en Estados Unidos. La implementación de este plan costará decenas de miles de millones de dólares. Sus principales objetivos son desarrollar sistemas informáticos escalables y software relacionado para respaldar el rendimiento de transmisión de Ethernet, desarrollar tecnología de red gigabit y ampliar las instituciones educativas y de investigación y las capacidades de conectividad de red.
3. Storm
Storm es un software gratuito de código abierto, un sistema informático en tiempo real distribuido y tolerante a fallos. Storm puede manejar grandes flujos de datos de manera muy confiable y puede usarse para procesar datos por lotes de Hadoop. Storm es simple, admite múltiples lenguajes de programación y es divertido de usar.
4. Ejercicio de Apache
Para ayudar a los usuarios empresariales a encontrar formas más efectivas de acelerar las consultas de datos de Hadoop, la Apache Software Foundation lanzó recientemente un proyecto llamado? ¿Perforar? Proyecto de código abierto. Apache Drill implementa Dremel de Google.
Según Tomer Shiran, gerente de producto de MapR Technologies, fabricante de Hadoop, ¿perforación? Ya se está ejecutando como un proyecto de Apache Incubator y se seguirá promocionando entre ingenieros de software de todo el mundo.
5. RapidMiner
RapidMiner es la solución de minería de datos líder en el mundo y utiliza tecnología avanzada en gran medida. Sus tareas de minería de datos cubren una amplia gama, incluidas diversas artes de datos, que pueden simplificar el diseño y la evaluación de los procesos de minería de datos.
6. Pentaho BI
La plataforma Pentaho BI es diferente de los productos de BI tradicionales. Es un marco centrado en procesos y orientado a soluciones. Su propósito es integrar una serie de productos de BI empresarial, software de código abierto, API y otros componentes para facilitar el desarrollo de aplicaciones de inteligencia empresarial. Su aparición permite integrar una serie de productos independientes para inteligencia empresarial como Jfree y Quartz para formar una solución de inteligencia empresarial compleja y completa.