Red de Respuestas Legales - Consulta de información - ¿Cuáles son los principales sistemas de archivos distribuidos actuales? ¿Cuáles son las ventajas y desventajas de cada uno?

¿Cuáles son los principales sistemas de archivos distribuidos actuales? ¿Cuáles son las ventajas y desventajas de cada uno?

¿Cuáles son los principales sistemas de archivos distribuidos actuales? ¿Cuáles son las ventajas y desventajas de cada uno? Actualmente, además de GPFS, existen varios sistemas de archivos distribuidos convencionales, incluidos PVFS, Lustre, PanFS, GoogleFS, etc.

1. El proyecto PVFS (Parallel Virtual File System) es un proyecto de código abierto establecido por la Universidad de Clemson para ejecutar clústeres de Linux. En la actualidad, PVFS todavía tiene las siguientes deficiencias:

1) Nodo de administración único: solo un nodo de administración administra los metadatos. Cuando el sistema de clúster alcanza una cierta escala, el nodo de administración puede estar demasiado ocupado y el nodo de administración se convertirá en el cuello de botella del sistema;

2) Falta de mecanismo de tolerancia a fallas para el almacenamiento de datos: cuando un El nodo de E/S falla, los datos no estarán disponibles;

3) Configuración estática: PVFS solo se puede configurar antes del inicio. Una vez que se implementa el sistema, la configuración original no se puede cambiar.

2. El sistema de archivos Lustre es un sistema de archivos distribuido basado en el almacenamiento de objetos. Este proyecto se inició en la Universidad Carnegie Mellon en 1999. Lustre también es un proyecto de código abierto. Tiene sólo dos nodos de gestión de metadatos, similar a PVFS. Cuando el sistema alcance una cierta escala, el nodo de gestión se convertirá en el cuello de botella del sistema Lustre.

3.PanFS (Panasas File System) es un sistema de archivos distribuido utilizado por Panasas para administrar su propio sistema de almacenamiento en clúster.

4.GoogleFS (Google File System) es un sistema de archivos distribuido diseñado por Google para satisfacer las necesidades internas de procesamiento de datos de la empresa.

5. En comparación con otros sistemas de archivos, GPFS tiene las siguientes tres ventajas principales:

1) Utilice una gestión de bloqueo distribuida y una estrategia de bloqueo para admitir sistemas de clúster a mayor escala. El administrador de tokens del sistema de archivos establece bloqueos detallados para bloques, inodos, atributos y entradas de directorio. El primer cliente en obtener el bloqueo será responsable de mantener la gestión de coherencia de los objetos compartidos correspondientes, lo que reduce la carga sobre el servidor de metadatos. ;

2) Hay múltiples servidores de metadatos, los metadatos se distribuyen y la administración de metadatos ya no es el cuello de botella del sistema;

3) La administración de tokens se basa en bytes. unidad de bloqueo más pequeña, es decir, a menos que dos solicitudes accedan a los mismos bytes de datos del mismo archivo, las solicitudes de acceso a los datos nunca entrarán en conflicto.

¿Cuáles son los principales sistemas de archivos distribuidos actuales? Sistemas de archivos distribuidos, sistemas de archivos en clúster y sistemas de archivos paralelos. Estos tres conceptos se confunden fácilmente y, a menudo, se utilizan indiscriminadamente en la práctica. La gente siempre pregunta sobre las diferencias y conexiones entre estos tres. De hecho, existen conceptos superpuestos entre ambos, pero también diferencias significativas.

¿Cuáles son las ventajas y desventajas del sistema de archivos distribuido de Google? Sistema de archivos de Google Sistema de archivos

Para satisfacer las crecientes necesidades de procesamiento de datos de Google, Google diseñó e implementó el Sistema de archivos de Google (GFS). GFS comparte muchos de los mismos objetivos que los sistemas de archivos distribuidos del pasado, como rendimiento, escalabilidad, confiabilidad y disponibilidad. Sin embargo, su diseño también está influenciado por la carga de aplicaciones y el entorno técnico de Google. Se refleja principalmente en los siguientes cuatro aspectos:

1. La falla del nodo en el clúster es un estado normal, no una excepción. Debido a que la cantidad de nodos involucrados en el procesamiento de cálculo es muy grande, generalmente se utilizan miles de nodos para * * * cálculos simultáneos, por lo que habrá nodos en un estado fallido en todo momento. Es necesario monitorear la ejecución dinámica del sistema, detectar errores y sistemas de tolerancia a fallas y recuperación automática integrados en el sistema a través de módulos de programas de software.

2. El concepto de tamaño de archivo en el sistema de Google es diferente al de los sistemas de archivos comunes. El tamaño de archivo generalmente se mide en g bytes. Además, el significado de los archivos en el sistema de archivos es diferente al de los archivos normales. Un archivo grande puede contener una gran cantidad de archivos pequeños en el sentido habitual. Por lo tanto, se deben reconsiderar las expectativas de diseño y argumentos como las operaciones de E/S y los tamaños de bloque.

3. El modo de lectura y escritura de archivos en el sistema de archivos de Google es diferente del sistema de archivos tradicional. En las aplicaciones de Google (como la búsqueda), la mayoría de las modificaciones de archivos no sobrescriben los datos originales, sino que agregan datos nuevos al final del archivo. La escritura aleatoria en archivos es casi inexistente. Para este enorme método de acceso a archivos, el cliente pierde el significado del almacenamiento en caché de bloques de datos y las operaciones adicionales se convierten en optimización del rendimiento y atomicidad (tratando una transacción como un programa. Ya sea completamente implementado o no implementado en absoluto.

4 Algunas operaciones específicas del sistema de archivos ya no son transparentes y requieren asistencia de la aplicación. El diseño conjunto de la aplicación y la API del sistema de archivos mejora la flexibilidad de todo el sistema. relajado. El diseño del sistema de archivos se simplifica enormemente sin aumentar la carga de la aplicación. También se introducen operaciones de adición atómica, por lo que cuando varios clientes se agregan al mismo tiempo, no se requieren operaciones de sincronización adicionales. Simple En otras palabras, GFS está diseñado para las aplicaciones de Google. Se dice que Google ha implementado muchos clústeres de GFS.

Algunos clústeres tienen más de 1000 nodos de almacenamiento y más de 300 T de espacio en el disco duro, a los que cientos de clientes acceden de forma continua y frecuente en diferentes máquinas.

¿Cuáles son las principales categorías de sistemas de archivos distribuidos? 1. Un único sistema de archivos

para el almacenamiento local del sistema operativo y las aplicaciones.

2. Sistema de archivos de red (NAS para abreviar)

Basado en la arquitectura Ethernet existente, se realiza el intercambio de datos del sistema de archivos tradicional entre diferentes servidores.

3. Sistema de archivos de clúster

Basado en * * * almacenamiento compartido, diferentes servidores pueden * * * utilizar un sistema de archivos tradicional a través de bloqueos de clúster.

4. Sistema de archivos distribuido

En los sistemas de archivos tradicionales, los datos se pueden distribuir entre servidores a través de módulos adicionales, y la función de protección contra incursiones está integrada por sí misma, lo que garantiza el acceso simultáneo y el acceso. varios servidores. Modificar el mismo sistema de archivos. Excelente rendimiento, buena escalabilidad y bajo costo.

¿Cuáles son los sistemas de archivos distribuidos comúnmente utilizados en Linux y cuáles son los principales sistemas de archivos distribuidos basados ​​en la plataforma Linux? Los sistemas de archivos distribuidos comunes incluyen GFS, HDFS, Lustre, Ceph, GridFS, mogileFS, TFS, FastDFS, etc. Son adecuados para diferentes campos. No son sistemas de archivos distribuidos a nivel de sistema, sino servicios de almacenamiento de archivos distribuidos a nivel de aplicación.

Sistema de archivos de Google

-

Sistema de archivos distribuido patentado por Google basado en Linux desarrollado para satisfacer las necesidades de la empresa. . Aunque Google ha anunciado algunos detalles técnicos del sistema, no ha publicado la parte del software del sistema como software de código abierto.

Los siguientes sistemas de archivos distribuidos son productos similares a GFS.

HDFS

-

Hadoop implementa un sistema de archivos distribuido (HDFS). Hadoop es una biblioteca de búsqueda de texto ampliamente utilizada desarrollada por Doug Cutting, el fundador de Apache Lucene. Se originó en Apache Nutch, un motor de búsqueda web de código abierto que forma parte del proyecto Luene. La arquitectura Aapche Hadoop es una aplicación de código abierto del algoritmo MapReduce y una piedra angular importante del imperio de Google.

Ceph

-

Es un sistema de archivos distribuido desarrollado por Sagewell en la Universidad de California, Santa Cruz mientras estudiaba su doctorado. Completó su tesis con Ceph.

Se dice que ceph es el más eficiente. El código escrito en C++ admite Fuse y no tiene dependencias de punto único de falla, así que descárguelo e instálelo. Debido a que ceph usa el sistema de archivos btrfs, el sistema de archivos btrfs requiere un kernel Linux 2.6.34 o superior para admitirlo.

Pero ceph es demasiado inmaduro y el btrfs en el que se basa también lo es. Su sitio web oficial también establece claramente que ceph no debe utilizarse en un entorno de producción.

Luster

-

Lustre es un sistema de archivos en clúster a gran escala, seguro, confiable y de alta disponibilidad desarrollado y mantenido por SUN.

El objetivo principal de este proyecto es desarrollar un sistema de archivos en clúster de próxima generación que pueda soportar más de 10.000 nodos y petabytes de sistemas de almacenamiento de datos.

Actualmente Lustre se ha aplicado en algunos campos, como en los productos HP SFS.

Cuáles son los principales sistemas de archivos distribuidos en la plataforma Linux, como hadoop, lustre, Gloster, sector/sphere, etc.

¿Cuáles son los sistemas de archivos distribuidos recomendados? fastfs TFS glusterfs grid fs Comparar 2015, proceso de operación del modelo de datos económicos: Datos de sección transversal: Objeto/NuevoObjeto, seleccione la opción de ecuación en este menú. Ingrese la fórmula en el cuadro de diálogo "Descripción de fórmula" que aparece. Datos del panel: abra eviews, abra el archivo de trabajo, haga clic en el panel de balance, ingrese el cuadro de datos del panel e ingrese los datos.