¿Cuál es la diferencia entre la recuperación de datos en una base de datos y la recuperación de información en un motor de búsqueda? ¿Cuál es la diferencia entre el problema central a resolver y la tecnología central?
El desarrollo de Internet obviamente ha promovido el desarrollo y la aplicación de tecnología de recuperación de información. Ha nacido una gran cantidad de productos de motores de búsqueda, que brindan buenas herramientas para que los internautas obtengan información rápidamente y naveguen por la red. Sin embargo, es un error equiparar la recuperación de información con el uso de un motor de búsqueda. La tecnología de recuperación de información de texto completo también se utiliza ampliamente en la tecnología de motores de búsqueda, pero la búsqueda de información en Internet y la búsqueda de información empresarial son diferentes.
El primero es la cantidad de datos. Las bases de datos de índice general de los sistemas tradicionales de recuperación de información son en su mayoría de nivel GB, pero la búsqueda web en Internet necesita procesar decenas de millones de páginas web. La estrategia básica de los motores de búsqueda es utilizar grupos de servidores de búsqueda, lo cual es inapropiado e inapropiado para la mayoría de las aplicaciones empresariales. Esencial, no apto para aplicaciones empresariales.
El segundo es la relevancia del contenido. Hay demasiada información, por lo que encontrarla y organizarla es particularmente importante. Los motores de búsqueda como Google han desarrollado una tecnología de análisis de enlaces web, que se basa en el número de veces que una página web se conecta a Internet. Los enlaces de las páginas dentro del sitio web corporativo están determinados por el sistema de edición y publicación del contenido del sitio web. Existen factores accidentales en el número de enlaces y no pueden utilizarse como base para juzgar la importancia. La recuperación de aplicaciones empresariales reales debe ordenarse según la relevancia del contenido, es decir, la información más relevante para las necesidades de recuperación se clasifica al principio de los resultados de la recuperación. Este tipo de clasificación mediante tecnología de análisis de enlaces básicamente no existe. factible.
La tercera es en tiempo real. Los servicios de generación y recuperación de índices del motor de búsqueda están separados y los datos se actualizan y sincronizan periódicamente. El ciclo de actualización de los grandes motores de búsqueda debe medirse en semanas o incluso meses. Sin embargo, la recuperación de información empresarial debe reflejar los cambios en la información interna y externa en tiempo real, y el mecanismo del sistema del motor de búsqueda no puede cumplir con los requisitos del crecimiento dinámico y la modificación de los datos empresariales.
El cuarto es la seguridad. Todos los motores de búsqueda de Internet se basan en sistemas de archivos, pero el contenido de las aplicaciones empresariales generalmente se almacena de forma segura y centralizada en almacenes de datos para garantizar la seguridad de los datos y los requisitos de gestión.
El quinto es la personalización y la inteligencia. Debido a las limitaciones de los datos de los motores de búsqueda y la escala de clientes, las tecnologías inteligentes con uso intensivo de computación, como la retroalimentación relevante, la recuperación de conocimientos y la extracción de conocimientos, son difíciles de aplicar. Sin embargo, las aplicaciones de recuperación de información dirigidas específicamente a las empresas pueden ir más allá en términos de inteligencia y capacidad. personalización.
(InformationRetrieval), generalmente se refiere a la recuperación de información de texto, incluido el almacenamiento, organización, presentación, consulta, acceso, etc. de la información. Su núcleo es la indexación y recuperación de información de texto. Históricamente, la recuperación de información ha pasado por múltiples etapas de desarrollo, como la recuperación manual, la recuperación por computadora, la recuperación en red y la recuperación inteligente.
En la actualidad, la recuperación de información se ha desarrollado hasta alcanzar una etapa inteligente y en red. Los objetos de recuperación de información se han expandido desde contenidos de información relativamente cerrados, estables y consistentes administrados por bases de datos independientes a contenidos web abiertos, dinámicos, rápidamente actualizados, ampliamente distribuidos y poco administrados; los usuarios de la recuperación de información también se han expandido desde la inteligencia original; profesionales al público en general, incluyendo empresarios, directivos, profesores, estudiantes, profesionales, etc. Han planteado requisitos más elevados y diversos para la recuperación de información desde los resultados hasta los métodos. Adaptarse a las necesidades de networking, inteligencia y personalización es una nueva tendencia en el desarrollo de la tecnología de recuperación de información.
Puntos críticos en la tecnología de recuperación de información
◆Recuperación inteligente o recuperación de conocimientos
La tecnología tradicional de recuperación de texto completo se basa en la concordancia de palabras clave, lo que a menudo conduce a resultados incompletos. Recuperación y recuperación. Inexactitudes y baja calidad de recuperación, especialmente en la era de la información de Internet, es difícil satisfacer las necesidades de recuperación de las personas mediante la concordancia de palabras clave. La búsqueda inteligente utiliza un diccionario de segmentación de palabras, un diccionario de sinónimos y un diccionario homófono para mejorar el efecto de búsqueda. Por ejemplo, los usuarios pueden consultar "computadora" y también recuperar información relacionada con "computadora"; esto puede ayudar aún más en las consultas a nivel de conocimiento o de concepto, formando un sistema de conocimiento o una red de conceptos a través de diccionarios temáticos, diccionarios de contexto y diccionarios relacionados; , brindando a los usuarios inteligencia Los consejos de conocimiento finalmente ayudan a los usuarios a obtener los mejores resultados de recuperación.
Por ejemplo, los usuarios pueden limitar aún más el alcance de la consulta a "microcomputadora", "servidor" o ampliar el alcance de la consulta a "tecnología de la información" o "tecnología electrónica", "software", "aplicación informática", etc. Además, la recuperación inteligente también incluye información ambigua y procesamiento de recuperación. Por ejemplo, ¿"Apple" se refiere a una fruta o una marca de computadora? La distinción entre "chino" y "chino" se logrará combinando la base de datos de descripción de conocimiento ambigua y el texto completo. índice, análisis del contexto de búsqueda de usuarios y procesamiento de comentarios relacionados con los usuarios para transmitir de manera eficiente y precisa la información más necesaria a los usuarios.
◆Minería de conocimientos
Actualmente se refiere principalmente al desarrollo de tecnología de minería de textos, cuyo objetivo es ayudar a las personas a encontrar, organizar y expresar mejor información, y extraer conocimientos para cumplir con los altos requisitos. de recuperación de información. La minería de conocimiento incluye abstracción, clasificación (agrupación) y recuperación de similitudes.
El resumen automático utiliza computadoras para extraer automáticamente resúmenes de los documentos originales. En la recuperación de información, el resumen automático ayuda a los usuarios a evaluar rápidamente la relevancia de los resultados de la búsqueda. En los servicios de información, el resumen automático ayuda a distribuir diversas formas de contenido, como enviarlo a PDA y teléfonos móviles. La tecnología de recuperación de similitudes consiste en recuperar documentos similares o relacionados en función de las características del contenido del documento. Es la base para lograr comentarios personalizados de los usuarios y también se puede utilizar para el análisis de deduplicación. La clasificación automática puede basarse en estadísticas o reglas y puede formar un árbol de clasificación predefinido mediante el aprendizaje automático y luego clasificar de acuerdo con las características del contenido del documento. La agrupación automática es agrupar y fusionar según la relevancia del contenido del documento. La clasificación automática (agrupación) es muy útil en la organización y navegación de la información.
◆Recuperación integrada y recuperación holográfica de información heterogénea
Bajo la tendencia de recuperación de información distribuida y en red, los requisitos para la apertura e integración de los sistemas de recuperación de información son cada vez mayores. , la necesidad de poder recuperar e integrar información de diferentes fuentes y estructuras, que es la base para el desarrollo de tecnología de recuperación de información heterogénea, incluidos archivos de soporte en varios formatos, como TEXTO, HTML, XML, RTF, MSOffice, PDF. , PS2/PS, MARC, ISO2709, etc. Admite la recuperación de información en varios idiomas; admite el procesamiento unificado de datos estructurados, datos semiestructurados y datos no estructurados y la integración de otras interfaces de recuperación abiertas. El concepto de "recuperación holográfica" tiene como objetivo admitir la recuperación en todos los formatos y métodos. A juzgar por la práctica actual, la integración de la interacción persona-computadora y la recuperación de información multimedia basada en la comprensión del lenguaje natural necesita mayores avances en el nivel de recuperación integrada de información heterogénea.
Además, desde la perspectiva de la práctica de la ingeniería, el uso integral de caché multinivel, agrupación distribuida y tecnología de equilibrio de carga de memoria y memoria externa también es un aspecto importante del desarrollo de la tecnología de recuperación de información.
Con la popularización de Internet y el desarrollo del comercio electrónico, la cantidad de información que las empresas y los individuos pueden obtener y necesitan procesar se ha disparado, la mayor parte de la cual son datos no estructurados y semiestructurados. La importancia de la gestión de contenidos se ha vuelto cada vez más prominente. La recuperación de información, como tecnología de soporte central de la gestión de contenidos, se aplicará a diversos campos con el desarrollo y la popularización de la gestión de contenidos, convirtiéndose en un socio cercano en el trabajo y la vida diaria de las personas.
La recuperación de información se originó a partir de los servicios de referencia bibliotecaria y la indexación de resúmenes. Se desarrolló por primera vez en la segunda mitad del siglo XIX. En la década de 1940, la indexación y la recuperación se habían convertido en herramientas y servicios de usuario independientes para las bibliotecas.
Con la llegada de la primera computadora electrónica del mundo en 1946, la tecnología informática entró gradualmente en el campo de la recuperación de información y se integró estrechamente con la teoría de la recuperación de información. Se han desarrollado y comercializado con éxito un sistema de recuperación de información por lotes fuera de línea y un sistema de recuperación de información en línea en tiempo real. Desde la década de 1960 hasta la década de 1980, impulsada por la tecnología de procesamiento de información, tecnología de comunicación, tecnología informática y de bases de datos, la recuperación de información se desarrolló rápidamente en los campos de la educación, el ejército y los negocios, y fue ampliamente utilizada. El sistema internacional de recuperación de información en línea Dialog es un representante del campo de recuperación de información durante este período y sigue siendo uno de los sistemas más famosos del mundo.
Flujo de trabajo de los motores de búsqueda
Internet es un tesoro y los motores de búsqueda son la clave para abrirlo. Sin embargo, la gran mayoría de los usuarios de Internet carecen de conocimientos y habilidades en materia de motores de búsqueda.
Una encuesta extranjera mostró que alrededor del 71% de las personas estaban decepcionadas en diversos grados con los resultados de la búsqueda. Como segundo servicio más grande de Internet, esta situación debería cambiar.
El rápido desarrollo de Internet ha provocado un crecimiento explosivo de la información en línea. Actualmente hay más de 2 mil millones de páginas web en el mundo, y cada día se agregan 7,3 millones de páginas web nuevas. Encontrar información en un océano tan vasto de información es como encontrar una aguja en un pajar. Los motores de búsqueda son sólo una tecnología para resolver este problema "perdido".
El trabajo de los motores de búsqueda incluye los siguientes tres procesos:
1. Descubrir y recopilar información de páginas web en Internet
2. y crear una base de datos de índices;
3. Luego, de acuerdo con las palabras clave de consulta ingresadas por el usuario, el buscador puede consultar rápidamente los documentos en la biblioteca de índices, evaluar la relevancia de los documentos y la consulta, y ordenarlos. resultados que se generarán y devolver los resultados de la consulta al usuario.
Descubrir y recopilar información de la red
Se necesita un programa "araña" de alto rendimiento para buscar información automáticamente en Internet. Una araña web típica funciona mirando una página y encontrando información relevante en ella. Luego comienza con todos los enlaces de la página y continúa buscando información relevante, y así sucesivamente, hasta que se agota. Las arañas web deben ser rápidas y completas. Para navegar rápidamente por todo Internet, las arañas web suelen utilizar tecnología preventiva de subprocesos múltiples para recopilar información en Internet. Al utilizar subprocesos múltiples preventivos, puede indexar páginas web basadas en enlaces URL, iniciar un nuevo hilo para rastrear cada nuevo enlace URL e indexar un nuevo punto de partida de URL. Por supuesto, los subprocesos abiertos en el servidor no pueden expandirse infinitamente, por lo que debemos encontrar un equilibrio entre el funcionamiento normal del servidor y la rápida recopilación de páginas web. Los algoritmos de cada empresa de tecnología de motores de búsqueda pueden ser diferentes, pero el objetivo es navegar rápidamente por las páginas web y cooperar con el procesamiento posterior. En la actualidad, las empresas nacionales de tecnología de motores de búsqueda, como Web Spider de Baidu, utilizan algoritmos de programación personalizables y altamente escalables para permitir a los buscadores recopilar la mayor cantidad de información de Internet en un período de tiempo muy corto y guardar la información obtenida. indexar bases de datos y búsquedas de usuarios.
El establecimiento de una base de datos de índice
Está relacionado con si los usuarios pueden encontrar la información más precisa y extensa lo más rápido posible. Al mismo tiempo, se debe establecer una base de datos de índice. rápidamente para capturar las páginas web rastreadas por las arañas web. La información se puede indexar muy rápidamente para garantizar la actualidad de la información. Utilizando un método que combina análisis de contenido basado en web y análisis de hipervínculos para evaluar la relevancia de las páginas web, las páginas web se pueden clasificar objetivamente, asegurando así en gran medida que los resultados de la búsqueda sean consistentes con la cadena de consulta del usuario. En el proceso de indexación de datos de sitios web, el motor de búsqueda Sina crea una base de datos de índice basada en la aparición de palabras clave en diferentes ubicaciones, como títulos de sitios web, descripciones de sitios web, URL de sitios web, etc., o el nivel de calidad del sitio web para garantizar que los resultados de la búsqueda. son consistentes con la cadena de consulta del usuario.
Este artículo proviene del blog de CSDN. Indique la fuente al reimprimir: /xd tech/archive/2009/09/22/4579795
.