Red de Respuestas Legales - Consulta de información - ¿Cuáles son los motores de búsqueda comunes?

¿Cuáles son los motores de búsqueda comunes?

Un motor de búsqueda es un sistema que recopila y organiza recursos de información en Internet y luego los proporciona para que usted los consulte. Incluye tres partes: recopilación de información, clasificación de información y consulta del usuario.

Los motores de búsqueda son sitios web que le brindan servicios de "recuperación" de información. Utiliza algunos programas para clasificar toda la información en Internet y ayudar a las personas a encontrar la información que necesitan en la vasta red.

Los primeros motores de búsqueda recopilaban las direcciones de los servidores de recursos en Internet, dividían los recursos que proporcionaban en diferentes directorios y luego los clasificaban capa por capa.

Quienes quieran encontrar la información que buscan pueden ingresar capa por capa según su propia clasificación, y finalmente llegar al destino y encontrar la información que buscan.

Este es en realidad el método más primitivo y sólo es aplicable cuando no hay mucha información en línea.

Con el crecimiento geométrico de la información en Internet, han surgido verdaderos motores de búsqueda. Estos motores de búsqueda conocen el comienzo de cada página del sitio web, luego buscan todos los hipervínculos en Internet y colocan todas las palabras que representan los hipervínculos en una base de datos.

Este es el prototipo del buscador actual.

Usa Yahoo! Con la aparición de Internet, el desarrollo de los motores de búsqueda también ha entrado en una era dorada y su rendimiento es mejor que antes.

Los motores de búsqueda actuales hacen más que simplemente buscar información en la web: se han vuelto más completos y sofisticados.

Con la autoridad del buscador Yahoo! Por ejemplo, a partir de marzo de 1995, Yahoo fue fundado por el chino-estadounidense Jerry Yang y otros. Desde el principio hasta el presente, se han desarrollado desde un único motor de búsqueda hasta una variedad de servicios de red, como el comercio electrónico, los servicios de información de noticias y los servicios de correo electrónico personales gratuitos, lo que ilustra completamente el proceso de desarrollo del motor de búsqueda desde uno único hasta uno completo. .

Sin embargo, debido al modelo de funcionamiento de los motores de búsqueda y al rápido desarrollo de Internet, los resultados de búsqueda son cada vez más insatisfactorios.

Por ejemplo, la búsqueda de la palabra "computadora" puede mostrar millones de páginas.

Esto se debe a que los motores de búsqueda optimizan los resultados de búsqueda a través de la relevancia para el sitio web, y la relevancia del sitio web está determinada por fórmulas como la posición de la palabra clave en el sitio web, el nombre del sitio web, las etiquetas, etc.

Esta es la razón por la que los resultados de búsqueda de los motores de búsqueda son numerosos y mixtos.

Debido al desarrollo y cambios de Internet, las bases de datos de los motores de búsqueda inevitablemente contienen enlaces inactivos.

En este artículo presentamos Google, que es un prototipo de un gran motor de búsqueda. Los motores de búsqueda se utilizan ampliamente para el hipertexto.

Google está diseñado para rastrear e indexar páginas web de manera eficiente y los resultados de sus consultas son mejores que otros sistemas existentes.

La base de datos de texto completo e hipervínculos de este prototipo contiene al menos 24.000.000 de páginas web.

Podemos descargarlo desde ://google.stanford.edu/

Diseñar un motor de búsqueda es un trabajo desafiante.

Los motores de búsqueda indexan miles de millones de páginas web que contienen una gran cantidad de palabras muy diferentes.

Responde miles de preguntas cada día.

Aunque los grandes motores de búsqueda son muy importantes en Internet, rara vez se estudian en los círculos académicos.

Además, debido al rápido desarrollo de la tecnología y al gran número de páginas web, construir un motor de búsqueda ahora es completamente diferente que hace tres años.

Este artículo detalla nuestro gran motor de búsqueda. Hasta donde sabemos, este es el primer artículo publicado que lo describe con tanto detalle.

Además de los problemas encontrados al aplicar técnicas tradicionales de búsqueda de datos a una cantidad tan grande de páginas web, existen muchos desafíos técnicos nuevos, incluida la aplicación de información adicional en hipertexto para mejorar los resultados de búsqueda.

Este artículo abordará este problema y describirá cómo utilizar información adicional en hipertexto para construir un sistema práctico de gran tamaño.

Cualquiera puede publicar información a voluntad en Internet. Cómo lidiar eficazmente con estos hipertextos desorganizados es también un tema al que este artículo debe prestar atención.

World Wide Web, motor de búsqueda, recuperación de información, PageRank, Google 1 Introducción La Web plantea nuevos desafíos a la recuperación de información.

La cantidad de información en Internet está aumentando rápidamente y, al mismo tiempo, usuarios nuevos e inexpertos están llegando a experimentar el arte de Internet.

A la gente le gusta utilizar hipervínculos para navegar por Internet, normalmente partiendo de páginas web importantes o de motores de búsqueda como Yahoo.

Todo el mundo piensa que List contiene efectivamente temas que interesan a todos, pero es muy subjetivo, tiene altos costos de establecimiento y mantenimiento, su actualización es lenta y no puede contener todos los temas profundos.

Los motores de búsqueda automatizados basados ​​en palabras clave a menudo arrojan demasiadas coincidencias de baja calidad.

Para empeorar las cosas, algunos anuncios hacen todo lo posible por engañar a los motores de búsqueda automatizados para captar la atención de las personas.

Creamos un gran motor de búsqueda para resolver muchos problemas en el sistema existente.

La aplicación de la estructura del hipertexto mejora enormemente la calidad de la consulta.

Nuestro sistema se llama Google, debido a la ortografía popular googol, que es 100 elevado a 100, lo que coincide con nuestro objetivo de construir un gran motor de búsqueda.

1.1 Motores de búsqueda web: ampliación: 1994-2000 La tecnología de los motores de búsqueda debe crecer drásticamente para mantenerse al día con el crecimiento exponencial del número de páginas web.

En 1994, el primer motor de búsqueda de Internet, el gusano World Wide Web (WWWW), podía recuperar 110.000 páginas web y archivos web.

El 11 de junio de 1994, los principales motores de búsqueda afirmaban poder recuperar desde 2' 000' 000 páginas web (de Search Engine Watch) hasta 100' 000' 000.

Se puede predecir que en el año 2000 habrá más de 1' 000' 000' 000' 000.

Al mismo tiempo, el tráfico en los motores de búsqueda también crecerá a un ritmo alarmante.

En marzo y abril de 1997, el gusano de la World Wide Web recibió una media de 1.500 consultas por día.

En junio de 1997, 165438+10 meses, Altavista afirmaba manejar aproximadamente 20.000.000 de consultas por día.

Con el crecimiento de los usuarios de Internet, hacia el año 2000, los motores de búsqueda automatizados manejarán cientos de millones de consultas cada día.

Nuestro sistema fue diseñado para abordar muchos problemas, incluida la calidad y la escalabilidad, e introducir tecnología de motor de búsqueda escalable para ampliarla a volúmenes de datos tan grandes.

1.2 Google: escalando con la Web Construir un motor de búsqueda que pueda adaptarse a la escala de la Web actual enfrentará muchos desafíos.

Las páginas web deben rastrearse lo suficientemente rápido para garantizar que estén actualizadas.

El espacio para almacenar índices y documentos debe ser lo suficientemente grande.

Los sistemas de indexación deben ser capaces de manejar eficientemente cientos de miles de millones de datos.

El procesamiento de consultas debe ser rápido, llegando a cientos de consultas por segundo.

A medida que la Web sigue creciendo, estas tareas se vuelven cada vez más difíciles.

Sin embargo, la eficiencia de ejecución y el costo del hardware también están aumentando rápidamente, lo que puede compensar parcialmente estas dificultades.

También hay varios factores que vale la pena destacar, como el tiempo de búsqueda del disco y la solidez del sistema operativo.

En el proceso de diseño de Google, no sólo consideramos la tasa de crecimiento de la Web, sino también las actualizaciones tecnológicas.

El diseño de Google se adapta bien y maneja conjuntos de datos masivos.

Puede utilizar eficientemente el espacio de almacenamiento para almacenar índices.

Se puede acceder a las estructuras de datos optimizadas de forma rápida y eficiente (consulte la Sección 4.2).

Además, queremos que los costos de almacenamiento e indexación sean lo más pequeños posible en comparación con la cantidad de archivos de texto y páginas HTML capturados (consulte el Apéndice B).

Para un sistema centralizado como Google, se puede obtener una escalabilidad satisfactoria del sistema tomando estas medidas.

1.3 Objetivos de Diseño 1.3.1 Mejorar la calidad de la búsqueda Nuestro principal objetivo es mejorar la calidad de los motores de búsqueda web.

En 1994, se pensó que crear un índice de búsqueda completo facilitaría la búsqueda de cualquier dato.

Según lo mejor de Web 1994-Navigator, "Los mejores servicios de navegación facilitan la búsqueda de cualquier información en la Web (todos los datos se pueden registrar en ese momento)".

Pero la Web en 1997 era muy diferente.

Recientemente, los usuarios de motores de búsqueda han confirmado que la integridad del índice no es el único criterio para evaluar la calidad de la búsqueda.

Los resultados de búsqueda que interesan a los usuarios a menudo se pierden en "resultados basura".

De hecho, el 11 de junio de 1997, sólo uno de los cuatro principales motores de búsqueda comerciales podía encontrarse (estaba entre los diez primeros resultados al buscar su nombre).

La razón principal de este problema es que el número de índice del documento ha aumentado en varios órdenes de magnitud, pero la cantidad de documentos que los usuarios pueden leer no ha aumentado.

Los usuarios todavía sólo quieren ver las primeras docenas de resultados de búsqueda.

Por lo tanto, necesitamos herramientas para que los resultados sean precisos a medida que * * * aumenta (el número de documentos relevantes entre las primeras docenas de resultados devueltos).

Dado que se seleccionan decenas de documentos entre miles de documentos que están más o menos relacionados, de hecho, el concepto de relevancia se refiere a los mejores documentos.

La alta precisión es importante, incluso a expensas de la capacidad de respuesta (el número total de documentos relevantes que el sistema puede devolver).

Afortunadamente, los enlaces de hipertexto proporcionan información que ayuda a mejorar las búsquedas y otras aplicaciones.

Especialmente la estructura y el texto del enlace proporcionan una gran cantidad de información para juzgar la relevancia y realizar un filtrado de alta calidad.

Google utiliza tanto estructura de enlaces como texto ancla (ver secciones 2.1 y 2.2).

1.3.2 Investigación académica sobre motores de búsqueda A medida que pasa el tiempo, además del rápido desarrollo, la Web también se comercializa cada vez más.

En 1993, sólo el 1,5% de los servicios web procedían de nombres de dominio.

En 1997, había superado el 60%.

Al mismo tiempo, los motores de búsqueda han pasado del ámbito académico al comercial.

Hasta ahora, la mayoría de los motores de búsqueda son propiedad de empresas y rara vez revelan detalles técnicos.

Por lo tanto, la tecnología de los motores de búsqueda todavía se desarrolla a puerta cerrada y tiende a hacer publicidad (ver Apéndice A).

El objetivo principal de Google es promover el desarrollo y la comprensión de los campos académicos en esta área.

Otro objetivo del diseño es ofrecerle un sistema práctico.

Las aplicaciones son muy importantes para nosotros debido a la gran cantidad de datos útiles disponibles en los sistemas de red modernos (creemos que la investigación más interesante involucrará la gran cantidad de datos de uso disponibles en los sistemas de red modernos).

Por ejemplo, cada día se realizan decenas de millones de estudios.

Sin embargo, obtener estos datos es muy difícil, principalmente porque no tienen valor comercial.

Nuestro objetivo final de diseño es construir una arquitectura que pueda soportar nuevas investigaciones sobre cantidades masivas de datos de red.

Para respaldar nuevas investigaciones, Google guardó los documentos capturados reales en forma comprimida.

Uno de los objetivos del diseño de Google es establecer un entorno que permita a otros investigadores ingresar rápidamente a este campo, procesar cantidades masivas de datos web y obtener resultados satisfactorios, pero es difícil obtener resultados utilizando otros. métodos.

El sistema lleva poco tiempo establecido. Se han utilizado varios artículos en la base de datos creada por Google y hay más en la etapa inicial.

Otro objetivo nuestro es crear un entorno similar a un laboratorio espacial donde los investigadores e incluso los estudiantes puedan diseñar o realizar experimentos con los datos de nuestra red masiva.

2. Características del sistema El motor de búsqueda de Google tiene dos características importantes que ayudan a obtener resultados de búsqueda de alta precisión.

Primero, utilice la estructura de enlaces de la Web para calcular el valor de clasificación de cada página. Esta estructura se llama PageRank, que se describirá en detalle en la página 98.

En segundo lugar, Google utiliza hipervínculos para mejorar los resultados de búsqueda.

2.1 PageRank: El gráfico de referencia de Page Rank (enlace) es un recurso importante, pero los motores de búsqueda actuales lo ignoran en gran medida.

Construimos un gráfico con 518' 000' 000 hipervínculos, lo que es una muestra importante.

Estos gráficos pueden calcular rápidamente el valor de PageRank de una página web, que es un estándar objetivo que se ajusta a la evaluación de la gente sobre la importancia de una página web. La base es juzgar la importancia por referencia.

Por lo tanto, en la web, PageRank puede optimizar los resultados de las consultas de palabras clave.

Para la mayoría de los temas, utilizamos PageRank para optimizar la coincidencia de texto simple en consultas de títulos de páginas y obtuvimos resultados sorprendentes (demostración disponible en google.stanford.edu).

PageRank también ayuda mucho en la búsqueda de texto completo del sistema principal de Google.

2.1.1 Calcular el PageRank La teoría de las citas en la recuperación de literatura se aplica a las páginas web. El número de veces que se citan los enlaces de una página web refleja la importancia y la calidad de la página web hasta cierto punto.

PageRank desarrolló esta idea y los enlaces entre páginas web no son iguales.

La definición de PageRank es la siguiente: Suponemos que T1...Tn apunta a la página A (por ejemplo, está referenciada).

El parámetro d es el coeficiente de frenada, por lo que el resultado está entre 0 y 1.

Normalmente d es igual a 0,85.

d se presentará en detalle en la siguiente sección.

C(A) se define como el número de enlaces de la página web A a otras páginas web. El valor de PageRank de la página web A viene dado por la siguiente fórmula: PR(A)=(1-D). )+D(PR(t 1 )/C(t 1)+...+PR (TN)/C().

PageRank o PR(A) se puede calcular mediante un algoritmo iterativo simple , y el vector propio principal de la matriz de enlaces de la página web se puede normalizar en consecuencia.

Calcular los valores de PageRank para 26.000.000 páginas lleva varias horas.

Algunos detalles técnicos están fuera del alcance de. este artículo. p>2.1.2 Juicio intuitivo PageRank se considera un modelo de comportamiento del usuario.

Asumimos que navegar por Internet es aleatorio. Seguimos haciendo clic en enlaces y nunca respondemos. Una página web vuelve a navegar.

La probabilidad de visitar una página web de forma aleatoria es su valor de PageRank.

El factor de frenado d es que visitar una página web de forma aleatoria es aburrido y seleccionar otra página web de forma aleatoria. Posibilidad

Para una sola página web o un grupo de páginas web, el factor de frenado d añade una variable importante

Esto permite a un individuo engañar deliberadamente al sistema para obtener una mayor. Valor de PageRank.

Tenemos otros algoritmos de PageRank, consulte la página 98.

Otro juicio intuitivo es que una página web tiene muchas páginas apuntando a ella, o hay algunas páginas con un PageRank alto. señale, entonces esta página web es muy importante

Intuitivamente, en la Web, muchas páginas web hacen referencia a una página web, por lo que vale la pena leer esta página web. Vale la pena echarle un vistazo a Yahoo citando una página de inicio tan importante.

Si una página web es de baja calidad o tiene un enlace inactivo, las páginas de inicio como Yahoo no enlazarán con ella.

PageRank maneja estos dos factores, transmitidos de forma recursiva a través de enlaces de red.

& ampnbsp2.2 Texto ancla Nuestro motor de búsqueda ha realizado un procesamiento especial para el texto del enlace.

La mayoría de los motores de búsqueda asocian el texto del enlace con la página en la que se encuentra el enlace.

Además, asócielo a la página web a la que apunta el enlace.

Esto tiene varios beneficios.

En primer lugar, a menudo el texto de descripción del enlace describe la página web con mayor precisión que la propia página web.

En segundo lugar, los descriptores de enlaces pueden enlazar a documentos que los motores de búsqueda de texto no pueden recuperar, como imágenes, programas, bases de datos, etc.

Es posible que la página web devuelta no pueda capturarse.

Presta atención a qué páginas no se pueden capturar y causarán algunos problemas.

No existe forma de comprobar su validez antes de devolverlos al usuario.

En este caso, el motor de búsqueda puede devolver una página web que no existe en absoluto, pero que tiene un hipervínculo que apunta a ella.

Sin embargo, este resultado se puede enumerar por separado, por lo que este problema rara vez ocurre.

El texto de descripción del enlace es la promoción de una página web a la que se enlaza. Los gusanos de la World Wide Web utilizan esta idea principalmente porque ayuda a buscar información no textual y pueden ampliar el rango de búsqueda con una pequeña cantidad de documentos descargados.

Utilizamos descripciones de enlaces ampliamente porque ayudan a mejorar la calidad de nuestros resultados de búsqueda.

Existen algunas dificultades a la hora de utilizar descriptores de enlaces de forma eficaz debido a la gran cantidad de datos que deben procesarse.

Ahora podemos capturar 24.000.000 páginas web y recuperar más de 259.000.000 descripciones de enlaces.

2.3 Otras funciones Además del PageRank y la descripción del enlace de la aplicación, Google también tiene otras funciones.

En primer lugar, todas las visitas tienen información de ubicación, por lo que se puede utilizar ampliamente para buscar proximidad.

En segundo lugar, Google rastrea algunos detalles de la apariencia visual, como el tamaño de fuente.

Las letras grandes en negrita son más importantes que otras palabras.

En tercer lugar, la base de conocimientos almacena las páginas web originales en texto completo.

3 La historia de la investigación sobre la recuperación de redes de empleo es relativamente corta.

El gusano World Wide Web (WWW) es uno de los primeros motores de búsqueda.

Más tarde aparecieron algunos motores de búsqueda para investigaciones académicas, y ahora la mayoría de ellos son propiedad de empresas cotizadas.

En comparación con el crecimiento de la Web y la importancia de los motores de búsqueda, hoy en día existen muy pocos artículos excelentes sobre la tecnología de los motores de búsqueda.

Según Michael Maul Din (científico jefe de Lycos Inc.): “Varios servicios (incluido Lycos) prestan gran atención a los detalles de estas bases de datos.

Aunque algunas funciones de la motor de búsqueda Se ha trabajado mucho en

El trabajo representativo incluye la entrega de resultados de motores de búsqueda comerciales existentes o la creación de pequeños motores de búsqueda personalizados

Finalmente, hay mucho trabajo en. sistemas de recuperación de información, especialmente en colecciones bien controladas.

En las siguientes dos secciones, discutiremos qué aspectos de los sistemas de recuperación de información deben mejorarse para funcionar mejor en la Web.

p>

3.1 Recuperación de información El sistema de recuperación de información nació hace unos años y se desarrolló rápidamente

Sin embargo, la mayoría de los objetos de investigación del sistema de recuperación de información son estructuras organizativas únicas a pequeña escala, como artículos científicos. o noticias relacionadas.

De hecho, el principal punto de referencia para la recuperación de información, la Conferencia de Recuperación de Texto (Texto), utiliza * pequeños y organizados como punto de referencia. El tamaño del corpus es de solo 20 GB, en comparación con los 147 GB de los 24 millones de páginas web que rastreamos.

Un sistema que funciona bien en TREC puede no producir buenos resultados en la web /p>

Por ejemplo, el modelo de espacio vectorial estándar intenta devolver el documento más cercano a la solicitud de consulta y trata tanto la solicitud de consulta como el documento como vectores compuestos por las palabras que aparecen en ellos

en un entorno web. En, esta estrategia generalmente devuelve documentos muy cortos, que generalmente son la palabra de consulta más algunas palabras. Por ejemplo, si consulta "Bill Clinton", la página web devuelta solo contiene "Bill Clinton es muy bueno". es lo que vimos en un importante motor de búsqueda.

Existe cierta controversia en línea. Los usuarios deberían expresar lo que quieren consultar con mayor precisión y utilizar más palabras clave en las solicitudes de consulta. Estamos totalmente en desacuerdo con esta opinión.

Si el usuario realiza una solicitud de consulta como "Bill Clinton", debería obtener los resultados deseados, porque hay mucha información de alta calidad sobre este tema. p>

Al igual que con los ejemplos dados, creemos que para procesar datos web de manera efectiva, es necesario desarrollar estándares de recuperación de información con una estructura organizada*. La diferencia entre **(una colección bien controlada) y la Web. es que la gran cantidad de documentos * * * está completamente desorganizada y heterogénea

Tanto la información intrínseca como la implícita en la Web Hay mucha heterogeneidad en los documentos.

Por ejemplo, diferentes idiomas (lenguajes humanos y programas), vocabulario (direcciones [de correo electrónico], enlaces, códigos postales, números de teléfono, números de productos), tipos (texto, HTML, PDF, imágenes, sonidos) e incluso algunos archivos creados por máquina (archivos de registro o resultados de bases de datos).

La información que se puede inferir del documento pero que no está contenida en el documento se denomina información implícita.

La información implícita incluye la reputación de la fuente, la frecuencia de actualización, la calidad, las visitas y las citas.

No sólo las posibles fuentes de información implícita son diversas, sino que la información detectada varía mucho, en varios órdenes de magnitud.

Por ejemplo, una página de inicio importante, como Yahoo, es visitada millones de veces cada día, mientras que un artículo histórico anónimo puede ser visitado sólo una vez cada diez años.

Evidentemente, los motores de búsqueda procesan estos dos tipos de información de forma diferente.

Otra diferencia obvia entre redes y estructuras organizativas es que prácticamente no existen restricciones para cargar información en una red.

Al utilizar esto de manera flexible, puede publicar cualquier información que tenga un impacto significativo en los motores de búsqueda, bloquear rutas y manipular deliberadamente los motores de búsqueda con fines de lucro, lo que se ha convertido en un problema grave.

Los sistemas tradicionales cerrados de recuperación de información no plantean estos problemas.

Se centra en los esfuerzos de metadatos, lo cual no es aplicable en los motores de búsqueda web, porque ningún texto en la página web afirmará al usuario que está intentando manipular el motor de búsqueda.

Incluso hay empresas que manipulan específicamente los motores de búsqueda para obtener beneficios.

4 Análisis del sistema Primero, proporcionamos una discusión de alto nivel sobre la arquitectura.

A continuación, se describen en detalle las estructuras de datos importantes.

Finalmente, las aplicaciones principales: rastreo de páginas web, indexación y búsqueda son todas estrictamente inspeccionadas.

Figura 1. Arquitectura de Google de alto nivel 4.1 Descripción general de la arquitectura de Google En esta sección, veremos cómo funciona todo el sistema (dado un nivel alto), como se muestra en la Figura 1.

Las aplicaciones y estructuras de datos no se analizan en esta sección, pero se analizan en las siguientes secciones.

Por razones de eficiencia, la mayoría de las aplicaciones de Google están implementadas en C o C++ y pueden ejecutarse en Solaris y Linux.

En el sistema de Google, el rastreo de páginas web (descarga de páginas web) lo completan varios rastreadores distribuidos.

El servidor de URL es responsable de proporcionar la lista de URL al rastreador.

La página web capturada se entrega al servidor de almacenamiento.

La página web es luego comprimida por el servidor de almacenamiento y almacenada en el repositorio.

Cada página web tiene un ID llamado docID. Cuando una nueva URL se separa de la página web, se le asignará un docID.

El indexador y el clasificador son responsables de establecer la función de índice de índice.

El indexador lee documentos de la base de conocimiento, los descomprime y los analiza.

La situación en la que cada documento se convierte en un conjunto de palabras se denomina hit.

Hits registra la palabra, su posición en el documento, el tamaño de fuente más cercano y mayúsculas y minúsculas.

El indexador asigna estas visitas a un conjunto de depósitos para producir un índice parcialmente ordenado.

Otra función importante del indexador es analizar todos los enlaces de la página web y almacenar información importante y relevante en el archivo ancla de descripción del enlace.

Este archivo contiene suficiente información para determinar los nodos salientes y entrantes de cada enlace, así como el texto del enlace.

El analizador de URL lee el archivo ancla de descripción del enlace y convierte la URL relativa en una URL absoluta y luego en un docID.

Indexa el texto de descripción del enlace y asócialo con el docID señalado.

Al mismo tiempo, se establece una biblioteca de enlaces compuesta por pares de docID.

Se utiliza para calcular el valor de PageRank de todos los documentos.

Los depósitos clasificados por docID se envían al clasificador y luego se clasifican por wordID para crear un índice invertido.

Esto debe hacerse de tal manera que casi no se necesite espacio de almacenamiento temporal.

El clasificador también proporciona una lista de docID y compensaciones, y crea un índice invertido.

Un programa llamado DumpLexicon combina esta lista con el diccionario generado por el indexador para crear un nuevo diccionario para que lo utilicen los buscadores.

Este buscador utiliza un servidor web, utiliza el diccionario generado por DumpLexicon y utiliza el índice invertido y el PageRank mencionado anteriormente para responder a las preguntas del usuario.

4.2 optimiza la estructura de datos de Google de la estructura de datos principal, que puede rastrear una gran cantidad de documentos, crear índices y consultas a un costo relativamente pequeño.

Aunque las tasas de CPU y de entrada/salida han crecido rápidamente en los últimos años.

La búsqueda del disco todavía tarda 10 milisegundos.

Los sistemas de Google están diseñados para evitar al máximo las búsquedas en disco en todo momento.

Esto tiene un gran impacto en el diseño de estructuras de datos.

4.2.1 Big Files BigFiles se refiere a un sistema de múltiples archivos generado por archivos virtuales, direccionados por datos enteros con una longitud de 64 bits.

La asignación de espacio entre múltiples sistemas de archivos se realiza automáticamente.

El paquete BigFiles también maneja descriptores de archivos asignados y no asignados.

Debido a que el sistema de control no satisface nuestras necesidades, BigFiles también admite opciones básicas de compresión.

4.2.2 Base de conocimientos Figura 2. Estructura de datos de la base de conocimientos La base de conocimientos contiene todo el HTML de cada página web.

Cada página web está comprimida por zlib (ver RFC1950).

La elección de la tecnología de compresión debe considerar tanto la velocidad como la relación de compresión.

Elegimos la velocidad de zlib en lugar de la alta tasa de compresión de bzip.

La relación de compresión de bzip para la base de conocimientos es cercana a 4:1.

La relación de compresión con zlib es 3:1.

Los documentos se almacenan en la base de conocimientos uno por uno, con el prefijo docID, longitud y URL, como se muestra en la Figura 2.

No se requieren otras estructuras de datos para acceder a la base de conocimientos.

Esto ayuda con la coherencia y las actualizaciones de los datos.

Para reconstruir el sistema con otras estructuras de datos, sólo es necesario modificar la base de conocimientos y los archivos de lista de errores del rastreador.

4.2.3 Índice de archivos El índice de archivos guarda parte de la información del documento.

El índice está organizado en orden de docID, con ISAM (modo de acceso secuencial de índice) de ancho fijo.

Cada registro incluye el estado actual del archivo, el puntero de la base de conocimientos, la suma de verificación del archivo y varias tablas estadísticas.

Si se captura un documento, el puntero apunta al archivo docinfo, que tiene un ancho variable y contiene la URL y el título.

De lo contrario, el puntero apunta a la lista de URL que contiene la URL.

Este diseño tiene en cuenta la simplicidad de la estructura de datos y el hecho de que acceder a los registros de la consulta requiere solo un tiempo de búsqueda en el disco.

También hay un archivo que convierte las URL en docID.

Esta es una lista de sumas de verificación de URL y sus correspondientes ID de documento, ordenados por suma de verificación.

Para conocer el docID de una URL, es necesario calcular la suma de verificación de la URL y luego realizar una búsqueda binaria en el archivo de suma de verificación para encontrar su docID.

Al fusionar este archivo, un lote de URL se puede convertir en los docID correspondientes.

Los analizadores de URL utilizan esta técnica para convertir URL en docID.

Este modo de actualización por lotes es importante; de ​​lo contrario, es necesario consultar cada enlace una vez. Si se utiliza disco, 322' 000' 000 de datos vinculados tardarían más de un mes.

4.2.4 Diccionarios Hay varias formas diferentes de diccionarios.

Una diferencia importante con respecto al sistema anterior es que los requisitos de memoria del diccionario pueden estar dentro de un rango de precio razonable.

En el sistema ahora implementado, una máquina con 256 M de memoria puede cargar el diccionario en la memoria.

El diccionario actual contiene 14.000.000 de palabras (aunque algunas palabras raramente utilizadas no se han agregado al diccionario).

Implementa dos partes: un vocabulario (cadenas contiguas separadas por nulos) y una tabla hash de punteros.

Existe información auxiliar para diferentes funciones y vocabularios, que está fuera del alcance de este artículo.

4.2.5 Lista de resultados Una lista de resultados es una lista de palabras que aparecen en el documento, incluida la posición, el tamaño de fuente y las mayúsculas y minúsculas.

La lista de resultados ocupa mucho espacio para la indexación hacia adelante y hacia atrás.

Por tanto, cuanto más eficiente sea su representación, mejor.

Consideramos varios esquemas para codificar la posición, el tamaño de fuente, la codificación de mayúsculas y minúsculas (3 enteros), la codificación compacta (que admite una asignación óptima de bits) y la codificación Huffman.

Consulte la Figura 3 para obtener detalles sobre Hit.

Nuestra codificación de compresión utiliza 2 bytes por clic.

Existen dos tipos de tomas, tomas especiales y tomas normales.

Los resultados especiales incluyen URL, título, texto de descripción del enlace y metaetiquetas.

Los aciertos normales incluyen todo lo demás.

Incluye bits de mayúsculas y minúsculas, tamaño de fuente y 12 bits para describir la posición de la palabra en el documento (todas las posiciones superiores a 4095 se marcan como 4096).

El tamaño de fuente se expresa como un tamaño relativo con respecto al resto del documento, ocupando 3 bits (en realidad solo se utilizan 7 valores porque la bandera 111 es un hit especial).

Los hits especiales se componen de bits de característica de caso. Un tamaño de fuente de 7 indica un hit especial, 4 bits indican el tipo de hit especial y 8 bits indican la posición.

Para el octeto de acierto del ancla, se dividen 4 bits para indicar la posición en el ancla y se utilizan 4 bits para indicar el hash de la tabla hash del docID en el que se produce el ancla.

Las consultas de fase son limitadas y algunas palabras no tienen suficientes anclajes.

Esperamos actualizar el método de almacenamiento de accesos de anclaje para resolver el problema de bits de dirección insuficientes y bits de campo docIDhash.