Cómo realizar búsquedas ponderadas por palabras clave y páginas web correspondientes
Utilizar la frecuencia y la posición de las palabras clave en los documentos para ordenar es la idea principal más temprana de los motores de búsqueda, y su desarrollo tecnológico también es el más maduro. . Fue la principal tecnología de clasificación en la primera etapa de los motores de búsqueda y se utilizó ampliamente. Sigue siendo la tecnología de clasificación central de muchos motores de búsqueda. El principio básico es que cuanto más frecuentemente aparezca una palabra clave en un documento, más importante será su posición y mayor será su relevancia para el término de búsqueda.
1) Estadísticas de frecuencia de palabras
La frecuencia de palabras de un documento se refiere a la frecuencia de las palabras clave de consulta que aparecen en el documento. Cuanto mayor sea la frecuencia de consulta de palabras clave en un documento, mayor será su relevancia. Pero cuando las palabras clave son palabras comunes, el juicio de relevancia tiene poca importancia. TF/IDF resuelve este problema muy bien. El algoritmo TF/IDF se considera el invento más importante en el campo de la recuperación de información. TF (frecuencia de términos): la frecuencia de aparición de una sola palabra de texto, dividida por la cantidad de palabras clave por la cantidad total de palabras en la página web. Su cociente se llama "frecuencia de palabras clave". IDF (Frecuencia de documento inverso): índice de frecuencia de texto invertido. El principio es que una palabra clave ha aparecido en n páginas web, por lo que cuanto mayor es n, menor es el peso de esta palabra clave y viceversa. . Por supuesto. Cuando las palabras clave son palabras comunes, el peso es muy pequeño, lo que resuelve las deficiencias de las estadísticas de frecuencia de palabras.
2) Ponderación de la posición de las palabras
En los motores de búsqueda, la ponderación de la posición de las palabras se utiliza principalmente para las páginas web. Por tanto, el análisis de la información del diseño de la página es muy importante. Al asignar diferentes pesos a diferentes posiciones y diseños de las palabras clave de búsqueda en la página web, la relevancia de los resultados de la búsqueda para las palabras clave de búsqueda se puede determinar en función de los pesos. La información de diseño que se puede considerar incluye: si es un título, si es una palabra clave, si es texto, tamaño de fuente, si está en negrita, etc. Al mismo tiempo, la información del texto ancla también es muy importante y, en general, puede describir con precisión el contenido de la página a la que apunta.
2.2 Motor de búsqueda de segunda generación basado en análisis y ranking de enlaces
La idea de análisis y ranking de enlaces tiene su origen en el mecanismo de índice de citas, es decir, cuantas más veces un artículo Se cita o cuanto más autoridad tiene, más valioso es su artículo. La idea del análisis y clasificación de enlaces es similar. Cuantas más veces una página web sea citada por otras páginas web o por páginas web con más autoridad, mayor será su valor. Cuantas más veces sea citado por otras páginas web, más popular será, más autoridad tendrá y mayor será su calidad. Los algoritmos de clasificación de análisis de enlaces se pueden dividir a grandes rasgos en las siguientes categorías: basados en modelos de itinerancia aleatoria, como PageRank y algoritmos de reputación; basados en modelos de probabilidad, como SALSA y PHITS, basados en modelos de centro y autoridad que se refuerzan mutuamente, como HITS y; sus variantes; basadas en el modelo Bayeux Si, como el algoritmo bayesiano y su versión simplificada. En aplicaciones prácticas, el algoritmo se optimiza en combinación con la tecnología tradicional de análisis de contenido. Este artículo presenta principalmente los siguientes algoritmos de clasificación clásicos:
1) Algoritmo PageRank
El algoritmo PageRank fue desarrollado por Sergey Brin y Lwraence, estudiantes de doctorado de la Universidad de Stanford.
Página, etc. El algoritmo PageRank es el algoritmo de clasificación central del motor de búsqueda de Google. Es uno de los factores importantes que hacen de Google el motor de búsqueda más exitoso del mundo. También inició un auge en la investigación de análisis de enlaces.
La idea básica del algoritmo PageRank es utilizar el valor de PageRank para medir la importancia de una página, lo que se refleja principalmente en dos aspectos: el número de páginas que citan la página y la importancia de la misma. página que cita la página. Una página P (A) hace referencia a otra página P (B), que puede considerarse como P (B) que recomienda P (A), y P (B) distribuye uniformemente su importancia (valor de pageRank) entre las referencias de P (B). de todas las páginas, por lo que cuantas más páginas hagan referencia a P(A), más valores de PageRank se asignarán a P(A). Además, cuanto más importante es P(B), más valor de PageRank se puede asignar a la página a la que hace referencia, y cuanto mayor es el valor de PageRank de P(A), más importante es.
La fórmula de cálculo es:
PR(A): valor de PageRank de la página A;
d: coeficiente de amortiguación, porque algunas páginas no están vinculadas o no están vinculadas out, por lo que no se puede calcular el valor de PageRank, lo cual se propone para evitar este problema (es decir, el problema de LinkSink). El coeficiente de amortiguación suele especificarse como 0,85.
R(Pi): valor de PageRank de la página Pi;
C(Pi): número de enlaces fuera de la página
El valor calculado inicial de PageRank; es lo mismo de. Para no ignorar el importante factor de que las páginas vinculadas a páginas importantes también lo son, se requiere una operación iterativa. Según los resultados del cálculo escrito por Zhang Yinghai, después de más de 10 iteraciones, el valor de evaluación del enlace tiende a ser estable, por lo que el valor PR del sistema converge después de múltiples iteraciones.
PageRank es un algoritmo estático y no tiene nada que ver con consultas, por lo que los valores de PageRank de todas las páginas web se pueden calcular sin conexión. Esto reduce el tiempo de clasificación requerido por los usuarios durante la recuperación y el tiempo de respuesta a las consultas también se reduce considerablemente.
Pero PageRank tiene dos defectos: primero, el algoritmo PageRank discrimina seriamente las páginas web nuevas, porque las páginas web nuevas generalmente tienen pocos enlaces entrantes y salientes, y el valor de PageRank es muy bajo. Además, el algoritmo PageRank solo se basa en el número y la importancia de los enlaces externos e ignora la relevancia del tema de la página, lo que hace que algunas páginas con temas irrelevantes (como páginas publicitarias) obtengan valores de PageRank más altos, lo que afecta la precisión de los resultados de búsqueda. sexo. Debido a esto, han surgido varios algoritmos relacionados con temas, entre los cuales los siguientes algoritmos son los más típicos.
2) Algoritmo de PageRank sensible al tema.
Debido a que el algoritmo de PageRank original no consideraba factores relacionados con el tema, Taher, Departamento de Ciencias de la Computación, Universidad de Stanford
Haveli-wala propuso un algoritmo de PageRank sensible al tema para resolver el " problema de "derivación del tema". Este algoritmo tiene en cuenta que determinadas páginas se consideran importantes en determinadas áreas, pero eso no significa que lo sean en otras áreas.
El vínculo entre la página web A y la página web B puede considerarse como la calificación de la página web A a la página web B. Si la página web A y la página web B pertenecen al mismo tema, la calificación de A a B se puede considerar más confiable. Debido a que A y B pueden ser vistos visualmente como pares, los pares tienden a conocer a sus pares mejor que los no pares, por lo que las puntuaciones de los pares tienden a ser más confiables que las de los no pares. Desafortunadamente, TSPR no utiliza la relevancia del tema para mejorar la precisión de la puntuación del enlace.
3) Algoritmo HillTop
HillTop es una patente solicitada por el ingeniero de Google Barat en 2001. HillTop es un algoritmo de análisis de enlaces relacionados con consultas que supera la independencia de las consultas del PageRank. El algoritmo HillTop cree que los enlaces a documentos relacionados sobre el mismo tema serán de mayor valor para los buscadores. En la cima de la montaña solo cuentan las páginas de expertos (exportaciones) que se utilizan para guiar a las personas a través de los recursos.
Fuente). Cuando Hilltop recibe una solicitud de consulta, primero calcula una lista de las páginas de expertos más relevantes según el tema de la consulta y luego calcula la lista según el número y la relevancia de los expertos no dependientes. Las páginas que apuntan a la página de destino se ordenan.
El proceso de clasificación básico del algoritmo HillTop para determinar el grado de coincidencia entre páginas web y palabras clave de búsqueda reemplaza la dependencia excesiva del valor de PageRank para encontrar esas páginas autorizadas y evita muchos intentos de aumentar el valor de PageRank de páginas web añadiendo muchos enlaces no válidos. El algoritmo HillTop garantiza la relevancia de los resultados de la evaluación y las palabras clave en diferentes niveles, garantiza la relevancia de los temas (industrias) en diferentes posiciones y evita la acumulación de palabras clave al distinguir el número de frases.
La búsqueda y determinación de páginas expertas juega un papel clave en el algoritmo, y la calidad de las páginas expertas juega un papel decisivo en la precisión del algoritmo, que ignora la influencia de la mayoría de las páginas no expertas. Las páginas de expertos representan una proporción muy baja de Internet (1,79%) y no pueden representar todas las páginas de Internet, por lo que HillTop tiene ciertas limitaciones. Al mismo tiempo, a diferencia del algoritmo PageRank, el funcionamiento del algoritmo HillTop se ejecuta en línea, lo que ejerce mucha presión sobre el tiempo de respuesta del sistema.
4) Clics
El algoritmo de clics (temas provocados por hipervínculos
Búsqueda) fue propuesto por Kleinberg en 1998 y es otro de los más famosos basado en One de los algoritmos de clasificación para el análisis de hipervínculos. El algoritmo divide las páginas web en dos categorías según la dirección de los hipervínculos: páginas autorizadas y páginas centrales. Las páginas autorizadas, también llamadas páginas autorizadas, se refieren a las páginas más cercanas a una determinada palabra clave de consulta y su combinación también se denominan páginas de directorio. El contenido de esta página es principalmente una gran cantidad de enlaces a páginas autorizadas, y su función principal es unir estas páginas autorizadas. Para la página autorizada P, cuantas más páginas Hub apunten a P, mayor será la calidad y mayor será el valor de autoridad de P. Para la página Hub H, cuantas más páginas autorizadas señale H, mayor será la calidad de la página autorizada. y cuanto mayor sea el valor de Hub de H. Para toda la colección en línea, la autoridad y los hubs son interdependientes, se promueven y se refuerzan mutuamente. La relación optimizada entre autoridades y centros es la base del algoritmo HITS.
La idea básica de HITS es que el algoritmo mide la importancia de una página web en función de su grado de entrada (hipervínculos que apuntan a la página web) y de salida (puntos de esta página web a otras páginas web). Luego de definir el rango, se establece una matriz en función del saliente y entrante de la página web. Mediante la operación iterativa de la matriz y la definición del umbral de convergencia, se obtienen los valores de los dos vectores de Autoridad y Hub. actualizado continuamente hasta la convergencia.
Los datos experimentales muestran que la precisión de la clasificación de HITS es mayor que la de PageRank. El diseño del algoritmo HITS cumple con los estándares generales para que los usuarios de la red evalúen la calidad de los recursos de la red y puede proporcionar a los usuarios. mejor acceso a los recursos de Internet utilizando herramientas de recuperación de información de la red.
Pero tiene los siguientes defectos: primero, el algoritmo HITS solo calcula el vector de características principal y no puede manejar bien la deriva del tema; segundo, el problema de la generalización del tema puede ocurrir al buscar temas limitados; tercero, HITS; Se puede decir que el algoritmo es un intento experimental. Después de realizar una operación de recuperación orientada a contenido en un sistema de recuperación de información de red, debe calcularse en función de la relación de enlace entre la página de resultados de recuperación de contenido y sus páginas directamente conectadas.
Aunque algunas personas han intentado mejorar el algoritmo y han establecido un servidor de cálculo de estructura de enlace (servidor de conexión), que puede realizar cálculos en línea en tiempo real hasta cierto punto, el costo del cálculo sigue siendo inaceptable.
2.3 El motor de búsqueda de tercera generación basado en clasificación inteligente
Los algoritmos de clasificación desempeñan un papel especialmente importante en los motores de búsqueda. Actualmente, muchos motores de búsqueda están investigando nuevos métodos de clasificación para mejorar la satisfacción del usuario. Pero los actuales motores de búsqueda de segunda generación tienen dos deficiencias. En este contexto nació el motor de búsqueda de tercera generación basado en clasificación inteligente.
1) Temas relacionados
La relevancia se refiere al grado de relevancia del término de búsqueda para la página. Debido a la complejidad del lenguaje, es unilateral juzgar la relevancia de los términos y páginas de búsqueda únicamente a través del análisis de enlaces y las características superficiales de las páginas web. Por ejemplo, si busca "añublo del arroz", hay una página web que presenta información sobre las enfermedades del arroz y las plagas de insectos, pero la palabra "añublo del arroz" no aparece en el texto y el motor de búsqueda no puede recuperarla en absoluto. Es por las razones anteriores que una gran cantidad de fenómenos de trampa en los motores de búsqueda no se pueden resolver. La forma de resolver el problema de la correlación debería ser aumentar la comprensión semántica y analizar la correlación entre las palabras clave de búsqueda y las páginas web. Cuanto más preciso sea el análisis de relevancia, mejores serán los resultados de búsqueda del usuario. Al mismo tiempo, se pueden eliminar las páginas web con baja relevancia, evitando eficazmente las trampas de los motores de búsqueda. La asociación entre las palabras clave de búsqueda y las páginas web que se ejecutan en línea ejercerá mucha presión sobre el sistema. La arquitectura distribuida puede mejorar la escala y el rendimiento del sistema.
2) Simplificación de los resultados de búsqueda
En un motor de búsqueda, cualquiera que busque la misma palabra obtendrá los mismos resultados. Esto no satisface las necesidades de los usuarios. Diferentes usuarios tienen diferentes requisitos para los resultados de búsqueda. Por ejemplo, los agricultores comunes buscan "añublo del arroz" sólo para obtener información sobre el añublo del arroz y sus métodos de prevención y control, pero los expertos agrícolas o los trabajadores científicos y tecnológicos pueden querer obtener artículos relacionados con el añublo del arroz.
La forma de resolver el problema de los resultados de búsqueda únicos es proporcionar servicios personalizados y realizar búsquedas inteligentes. A través de la minería de datos web, se establecen modelos de usuario (como antecedentes, intereses, comportamientos y estilos) para brindar servicios personalizados.