¿Cuántos tipos de buscadores online existen en función de sus mecanismos? ¿Cuáles son sus características?
Clasificación de los motores de búsqueda
Los motores de búsqueda se pueden dividir en tres tipos según sus métodos de trabajo: motores de búsqueda de texto completo, motores de búsqueda de índice de directorio y motores de metabúsqueda.
Motor de búsqueda de texto completo
El motor de búsqueda de texto completo es un auténtico motor de búsqueda, incluidos Google, Fast/AllTheWeb, AltaVista, Inktomi, Teoma, WiseNut, etc. Como representante en el extranjero, Baidu es una empresa nacional muy conocida. Todos se basan en información extraída de varios sitios web (principalmente páginas web) de Internet, buscan registros relevantes que coincidan con las condiciones de consulta del usuario y luego devuelven los resultados al usuario en un orden determinado, por lo que son motores de búsqueda reales.
Desde la perspectiva de la fuente de resultados de búsqueda, los motores de búsqueda de texto completo se pueden subdividir en dos tipos. Una es tener su propio indexador, comúnmente conocido como programa "araña" o programa "robot", para construir su propia base de datos web y llamar directamente a los resultados de la búsqueda desde su propia base de datos, como los siete motores principales mencionados anteriormente; la otra es alquilar bases de datos de otros motores, como el motor Lycos, y organizar los resultados de la búsqueda en formatos personalizados.
Buscar índice/directorio
Aunque el índice del directorio tiene una función de búsqueda, no es un motor de búsqueda real en sentido estricto, es solo una lista de enlaces a sitios web clasificados por directorio. . Los usuarios no necesitan buscar palabras clave, simplemente pueden encontrar la información que necesitan a través del directorio de categorías. El más representativo en el índice del directorio es el famoso Yahoo! Otros famosos incluyen Open Directory Project (DMOZ), LookSmart, About, etc. Las búsquedas nacionales de Sohu, Sina y NetEase también entran en esta categoría.
Metabuscador (metabuscador)
Cuando un metabuscador acepta la solicitud de consulta de un usuario, simultáneamente busca en otros motores y devuelve los resultados al usuario. Los metabuscadores famosos incluyen InfoSpace, Dogpile, Vivisimo, etc. (Lista de metabuscadores), y el metabuscador chino representativo es el motor de búsqueda. En términos de clasificación de los resultados de búsqueda, algunos clasifican directamente los resultados de la búsqueda según el motor de origen, como Dogpile, y otros reorganizan y combinan los resultados según sus propias reglas, como Vivisimo.
Además de los tres tipos de motores anteriores, también existen las siguientes formas no convencionales:
Motores de búsqueda agregados: como el motor lanzado por HotBot a finales de 2002. . Este motor es similar a un metabuscador, pero la diferencia es que en lugar de llamar a varios motores para realizar búsquedas al mismo tiempo, los usuarios eligen entre los cuatro motores proporcionados, por lo que es más exacto llamarlo motor de búsqueda "agregado". .
Motores de búsqueda de portales: aunque AOL Search y MSN Search proporcionan servicios de búsqueda, no tienen directorios clasificados ni bases de datos web, y los resultados de la búsqueda provienen íntegramente de otros motores.
Enlace completo gratuito (FFA): generalmente, este tipo de sitio web es simplemente un elemento de enlace de desplazamiento simple y algunos tienen categorías simples, pero la escala es mucho menor que la de Yahoo y otros índices de directorio.
Debido a que todos los sitios web mencionados anteriormente brindan servicios de búsqueda y consulta para los usuarios, por conveniencia, generalmente los llamamos motores de búsqueda.
Principios básicos de funcionamiento de los motores de búsqueda
Comprender los principios de funcionamiento de los motores de búsqueda será de gran ayuda para nuestras aplicaciones de búsqueda diarias y el envío y promoción de sitios web.
Motor de búsqueda de texto completo
En la sección de clasificación de motores de búsqueda, mencionamos el concepto de motores de búsqueda de texto completo que extraen información de sitios web para crear bases de datos web. Los motores de búsqueda tienen dos funciones de recopilación automática de información. Una es la búsqueda regular, es decir, de vez en cuando (por ejemplo, Google suele ser de 28 días), el motor de búsqueda envía activamente un programa "araña" para buscar sitios de Internet dentro de un determinado rango de direcciones IP. Una vez que descubre un nuevo sitio web, extrae automáticamente la información del sitio web y la URL y la agrega a su propia base de datos.
El otro es enviar una búsqueda de sitio web, es decir, el propietario del sitio web envía voluntariamente la dirección del sitio web al motor de búsqueda y el motor de búsqueda envía "arañas" a su sitio web dentro de un cierto período de tiempo ( que van desde 2 días hasta varios meses) ”programa que escanea su sitio web y almacena información relevante en una base de datos para que los usuarios la consulten. Debido a que las reglas de indexación de los motores de búsqueda han cambiado mucho en los últimos años, el envío activo de URL no garantiza que su sitio web ingrese a la base de datos del motor de búsqueda. Por lo tanto, la mejor manera en la actualidad es obtener más enlaces externos para brindar más oportunidades a los motores de búsqueda. .Encontrarte e incluir automáticamente tu sitio web.
Cuando un usuario busca información a través de palabras clave, el motor de búsqueda busca en la base de datos. Si se encuentra un sitio web que cumple con los requisitos del usuario, se utiliza un algoritmo especial, generalmente basado en la coincidencia de palabras clave en la página web, la posición/frecuencia de aparición, la calidad del enlace, etc. - Calcule la relevancia y la clasificación de cada página web y luego devuelva estos enlaces web al usuario en orden según la relevancia.
Índice de búsqueda/Tabla de contenido
En comparación con los motores de búsqueda de texto completo, los índices de tabla de contenido tienen muchas diferencias.
En primer lugar, los motores de búsqueda son recuperaciones automáticas de sitios web, mientras que la indexación de directorios se basa completamente en operaciones manuales. Después de que un usuario envía un sitio web, un editor de directorio explorará personalmente su sitio y decidirá si lo acepta basándose en un conjunto personalizado de criterios de evaluación o incluso en la impresión subjetiva del editor.
En segundo lugar, cuando un motor de búsqueda incluye un sitio web, siempre que el sitio web en sí no viole las reglas pertinentes, normalmente podrá iniciar sesión correctamente. Sin embargo, la indexación de directorios tiene requisitos mucho más altos para los sitios web y, a veces, es posible que no tenga éxito incluso si inicia sesión muchas veces. Especialmente como Yahoo! Es aún más difícil iniciar sesión en un superíndice de este tipo. (Dado que iniciar sesión en Yahoo! es el campo de batalla más difícil para el marketing online, presentaremos las técnicas para iniciar sesión en Yahoo en un espacio dedicado más adelante.
Además, al iniciar sesión en un motor de búsqueda, Generalmente no es necesario considerar la clasificación del sitio web, pero al iniciar sesión en el índice del directorio, el sitio web debe ubicarse en el directorio más apropiado.
Finalmente, la información relevante de cada sitio web en el. El motor de búsqueda proviene de la página web del usuario. Se extrae automáticamente de la base de datos, por lo que desde la perspectiva del usuario, tenemos más autonomía; sin embargo, la indexación del directorio requiere que usted complete manualmente la información del sitio web, lo que es más, si. el personal cree que el directorio y el sitio web que usted envió, si la información no es adecuada, puede ajustarla en cualquier momento sin consultarlo previamente.
El índice del directorio, como sugiere el nombre, almacena el sitio web. el directorio correspondiente Al consultar información, los usuarios pueden elegir la búsqueda por palabras clave o clasificar el directorio. Si busca por palabras clave, los resultados obtenidos son los mismos que los del motor de búsqueda. según el grado de relevancia de la información, pero hay más factores humanos. Si busca por directorios jerárquicos, la clasificación del sitio web en un directorio está determinada por el orden de las letras del título (hay excepciones).
En la actualidad, existe una tendencia a la integración y penetración mutua de los motores de búsqueda y los índices de directorios. Resulta que algunos motores de búsqueda de texto completo ahora también proporcionan búsquedas de directorios Open Directory para realizar consultas clasificadas. Yahoo!, estos antiguos índices de directorios amplían el alcance de la búsqueda al cooperar con motores de búsqueda como Google. En el modo de búsqueda predeterminado, algunos motores de búsqueda de directorios mostrarán primero sitios web coincidentes en sus propios directorios. etc., mientras que otros utilizan por defecto la búsqueda en línea, como Yahoo.
La tercera ley de los motores de búsqueda
Hoy en día, los motores de búsqueda acaban con el pasado y se abren al futuro. Para ilustrar lo que quiero decir con la tercera ley, repasemos la primera y la segunda ley.
La primera ley de la relatividad puede parecer académica. De hecho, ni siquiera se han mencionado la primera ley y la segunda. antes, pero el contenido de la primera ley y la segunda ley han sido reconocidos durante mucho tiempo en la industria y la academia. De hecho, esta primera ley fue ampliamente estudiada por los círculos académicos mucho antes del surgimiento de Internet. La llamada ley de correlación En ese momento, este campo se llamaba recuperación de información o recuperación de información, y algunos lo llamaban recuperación de texto completo.
La relevancia en ese momento se basaba en las estadísticas de frecuencia de palabras, es decir, el usuario ingresa términos de búsqueda y el motor de búsqueda busca términos de búsqueda que aparecen con frecuencia y en posiciones importantes en los artículos (páginas web). además de los propios términos de búsqueda, algunos pesos de uso común y, finalmente, se clasifica un resultado (página de resultados de búsqueda). Las primeras clasificaciones de resultados de motores de búsqueda se basaron en la primera ley de este artículo, como Infoseek, Excite, Lycos, etc. Básicamente, siguieron los resultados de la investigación académica antes de la era de Internet. La industria se centraba en el procesamiento de grandes volúmenes de tráfico y big data, pero no hubo avances en la clasificación de relevancia.
De hecho, las estadísticas de frecuencia de palabras no utilizan ninguna característica relacionada con la red y son una tecnología de la era anterior a Internet. En la era de Internet, los documentos principales existen en forma de páginas web y casi todo el mundo puede publicar diversos contenidos en Internet a voluntad. La calidad de dos páginas web con la misma frecuencia de palabras puede ser muy diferente, pero según la primera ley de los motores de búsqueda, la clasificación de estas dos páginas web debería ser la misma. Para obtener una clasificación alta en algunos resultados de búsqueda, muchos productores de contenido web se devanan los sesos y acumulan palabras clave en sus páginas, lo que hace que los motores de búsqueda no puedan evitarlas y las afecten. Esta situación comenzó a cambiar en 1996.
La segunda ley, la ley de la popularidad y la calidad
En abril de 1996, fui a Las Vegas para celebrar una conferencia académica sobre recuperación de información. El contenido de la reunión fue tan aburrido como el clima en Las Vegas. Pero estoy lejos de la empresa, pero rara vez tengo la oportunidad de calmarme y pensar seriamente en los problemas. Mientras escuchaba una conferencia de tesis irrelevante, de repente conecté el mecanismo del índice de citas científicas con los hipervínculos en la página web; gracias a la Universidad de Pekín, ella me enseñó el mecanismo del índice de citas científicas cuando era estudiante. No existe otro mecanismo en los Estados Unidos. La universidad te enseñará como estudiante universitario.
El mecanismo del Science Citation Index, para decirlo sin rodeos, es que quien sea citado más veces se considera autorizado y el artículo es un buen artículo. Esta idea se trasplanta a Internet, es decir, cuya página web tiene más enlaces, esa página web se considera de alta calidad y popular. Junto con el análisis del texto del enlace correspondiente, se puede utilizar en la clasificación de los resultados de búsqueda. Esto lleva a la segunda ley de los motores de búsqueda: la ley de la calidad de la popularidad. Según esta regla, la clasificación de relevancia de los resultados de búsqueda no depende enteramente de las estadísticas de frecuencia de palabras, sino más bien del análisis de hipervínculos.
Me di cuenta de que esto era un gran avance y rápidamente resumí mis pensamientos después de regresar. En junio de 1996 solicité una patente estadounidense en esta área. El 6 de julio de 1999, la Oficina de Patentes y Marcas de los Estados Unidos aprobó la Patente No. 5920859 conmigo como único inventor. Hacia finales de 1996, dos estudiantes de posgrado del Departamento de Ciencias de la Computación de la Universidad de Stanford idearon la misma solución. Posteriormente crearon un motor de búsqueda llamado Google. El sitio web de Google todavía dice que su tecnología está pendiente de patente. Me pregunto si la Oficina de Patentes de Estados Unidos volverá a conceder una patente como ésta. En cualquier caso, el método de análisis de hipervínculos ha sido gradualmente aceptado por los principales motores de búsqueda desde 1998. Debido a que los enlaces son una característica fundamental del contenido en línea, los motores de búsqueda de esta época comenzaron a utilizar realmente la tecnología de recuperación de la era de Internet.
El mundo es impredecible. A partir del año 2000, la burbuja de Internet estalló rápidamente y los principales motores de búsqueda fueron adquiridos o retrasaron su salida a bolsa. Todas las empresas de motores de búsqueda que utilizaron el método de la calidad de la popularidad no quedaron inmunes. Entonces, ¿cuál es la salida para los motores de búsqueda?
La tercera ley, la ley de la confianza en uno mismo
El método de calidad masiva también resuelve un problema técnico. Sin embargo, los motores de búsqueda nunca han sido un fenómeno puramente técnico desde su nacimiento. Han integrado muchos factores como la tecnología, la cultura y el mercado. Para resolver el problema de la supervivencia y el desarrollo de las empresas de motores de búsqueda, necesitamos la tercera ley de los motores de búsqueda: la ley de la confianza en uno mismo.
En 1998, no mucha gente tomaba en serio una empresa recién creada llamada GoTo.com (ahora rebautizada como Overture) a 500 millas de Silicon Valley. Simplemente compra los servicios técnicos de un motor de búsqueda y luego subasta la clasificación de sus sitios web en los resultados de búsqueda de GoTo a los propietarios de esos sitios web. Quien paga más ocupa el primer lugar. El pago se calcula en función de los clics de los internautas en el sitio web. No es necesario pagar si solo aparece en los resultados de búsqueda.
¡Este es el primer practicante de la Ley de Confianza! Según esta regla, además de las estadísticas de frecuencia de palabras y el análisis de hipervínculos, la clasificación de relevancia de los resultados de búsqueda presta más atención a las subastas de ofertas. Quien tenga confianza en su sitio web ocupará el primer puesto. Una señal de confianza es la voluntad de pagar por esa clasificación. Cabe señalar que la Ley de Confianza es también mi propio nombre para este modelo, y nadie lo ha resumido en la literatura anterior.
Hoy, cuando la industria de Internet está en recesión y el Nasdaq está en su apogeo, GoTo está en su apogeo, con un valor de mercado de 654.3803 millones de dólares e ingresos de hasta el 35% de los ingresos totales de Yahoo. Por otro lado, ¿qué portal obtiene un tercio de sus ingresos totales de sus servicios de motor de búsqueda? La razón es que Goto fue el primero en practicar la ley de confianza en los motores de búsqueda. En el pasado, los motores de búsqueda dependían del CPM para cobrar, y el CPM se basaba en la industria publicitaria tradicional y no tenía en cuenta las características de inmediatez, interactividad y facilidad de oferta de los medios en línea. Sin embargo, el PPC y el cobro por clic proporcionan directamente a los propietarios de sitios web oportunidades de ventas, en lugar de publicidad en el sentido tradicional. La Ley de Confianza ha cambiado la vergonzosa situación de los motores de búsqueda que dependían del CPM para recaudar dinero en el pasado y ha creado un modelo de cobro que realmente pertenece a Internet.