Acuerdo sobre robots: "Los ladrones también tienen métodos"
Tenga en cuenta que la existencia de este protocolo depende más del cumplimiento de los rastreadores web y no tiene la función de prevenirlos.
Las páginas web en Internet están relacionadas entre sí mediante hipervínculos, formando así la estructura web de las páginas web. Un rastreador funciona como una araña que se arrastra por los enlaces de Internet. El proceso más básico se puede simplificar de la siguiente manera:
Después de conocer el proceso anterior, podemos encontrar que el sitio web es muy pasivo con los rastreadores y solo con aquellos que suben honestamente.
Por lo tanto, existe la siguiente necesidad para los administradores de sitios web:
Algunas rutas se utilizan para la privacidad personal o la administración de sitios web y no desean ser rastreadas por motores de búsqueda, como los japoneses. me encanta la película de acción;
No me gustan los motores de búsqueda y no quiero que me rastreen. Lo más famoso es que Taobao no quería que Baidu lo rastreara antes.
Los sitios web pequeños utilizan servidores virtuales públicos, que tienen tráfico limitado o requieren pago. Esperan que los motores de búsqueda sean más amables.
Algunas páginas web se generan dinámicamente y no tienen enlaces directos. pero esperan que el contenido sea rastreado e indexado por motores de búsqueda.
El propietario del contenido del sitio web es el webmaster y los motores de búsqueda deben respetar los deseos del propietario. Para cumplir con lo anterior, es necesario proporcionar una forma para que el sitio web se comunique con el rastreador y brindarle al webmaster la oportunidad de expresar sus deseos. Donde hay demanda, hay oferta y así nació Robot Protocol.
Acuerdo de robots de JD.COM
/robots.txt
Acuerdo de robots de Baidu
En la imagen de arriba, * representa todo, / Representa el directorio raíz.
Dado que un rastreador web debe obtener archivos y luego analizar las reglas antes de rastrear un sitio web, el robot debe tener un conjunto común de reglas de sintaxis.
El archivo robots.txt más simple tiene solo dos reglas:
Agente de usuario: especifica qué rastreadores tendrán efecto.
No permitido: especifique las URL a bloquear.
Hablemos de agentes de usuario. El rastreador declara su identidad al rastrear. Este es User-agent, sí, es /culture. ...
Mapa del sitio:/hostedn...
Por cierto, considerando que un sitio web tiene muchas páginas, no es confiable mantener el mapa del sitio manualmente. Google proporciona herramientas para generar mapas de sitio automáticamente.
Metaetiquetas
De hecho, estrictamente hablando, esta parte no pertenece al robots.txt.
La intención original de robots.txt es permitir a los webmasters gestionar el contenido del sitio web que puede aparecer en los motores de búsqueda. Sin embargo, incluso si el uso de un archivo robots.txt hace que este contenido no esté disponible para los rastreadores, los motores de búsqueda pueden encontrar estas páginas por otros medios y agregarlas a sus índices. Por ejemplo, es posible que otros sitios web aún tengan enlaces a este sitio web. Por lo tanto, las direcciones de sitios web y otra información pública (como texto de anclaje en enlaces de sitios web relevantes o títulos en sistemas abiertos de gestión de directorios) pueden aparecer en los resultados de búsqueda del motor. ¿Qué pasa si quieres ser completamente invisible para los motores de búsqueda? La respuesta es: metaetiqueta, que es metaetiqueta.
Por ejemplo, para evitar por completo que el contenido de una página web aparezca en los índices de los motores de búsqueda (incluso si otros sitios web enlazan a la página), puede utilizar la metaetiqueta noindex. Cada vez que un motor de búsqueda ve una página web, verá la metaetiqueta noindex, que impide que la página web se muestre en el índice. Tenga en cuenta que la metaetiqueta noindex proporciona una forma de controlar el acceso página por página a su sitio web.
Para evitar que todos los motores de búsqueda indexen una página en su sitio, agregue:
El valor de nombre aquí se puede establecer en el agente de usuario del motor de búsqueda para especificar que el motor de búsqueda debe ser bloqueado.
Además de noindex, existen otras metaetiquetas, como nofollow, que prohíben a los rastreadores seguir enlaces a esta página. Para obtener más información, consulte las metaetiquetas admitidas por Google. Aquí, me gustaría mencionar que noindex y nofollow se describen en la especificación HTML4.01, pero otras etiquetas tienen distintos grados de soporte en diferentes motores. Consulte la documentación de cada motor.
Retraso de rastreo
Además de controlar qué se puede rastrear y qué no, robots.txt también se puede utilizar para controlar la velocidad de rastreo del rastreador. ¿Cómo hacerlo? Al establecer la cantidad de segundos que el rastreador espera entre rastreos. Esta operación puede reducir la presión sobre el servidor.
Significa que después de este rastreo, debes esperar 5 segundos antes del siguiente rastreo.
Nota: Google ya no admite este método y proporciona una función en las herramientas para webmasters para controlar la velocidad de rastreo de forma más intuitiva.
Además, hace unos años hubo un período en el que robots.txt también admitía parámetros complejos: tiempo de visita, el rastreador solo podía acceder dentro del período de tiempo especificado por la tasa de tiempo de visita; : se utiliza para limitar las URL. La frecuencia de lectura controla diferentes tasas de rastreo en diferentes períodos de tiempo. Posteriormente, se estimó que había muy poca gente que lo apoyara, por lo que fue abolido gradualmente. En la actualidad, Google y Baidu ya no apoyan esta regla, y otras pequeñas empresas de motores nunca parecen apoyarla.
Rastreador web:
Identifica automática o manualmente el archivo robots.txt y luego rastrea el contenido.
Vinculante:
El Acuerdo de Robots es consultivo pero no vinculante. Los rastreadores web no pueden cumplirlo, pero existen riesgos legales.
Principio: El comportamiento humano no puede hacer referencia al protocolo del robot.
El acuerdo sobre robots no es una barrera técnica, sino un acuerdo de respeto mutuo. Por ejemplo, si hay un cartel en la puerta de un jardín privado que dice "No se permite la entrada a nadie", las personas que lo respeten pueden desviarse, pero las personas que no lo respeten aún pueden empujar la puerta para abrirla y Adelante. En la actualidad, todavía existen algunos problemas en el uso real del protocolo Robots.
Objetos ocultos
El propio Robots.txt también necesita ser rastreado. En aras de la eficiencia, los rastreadores generalmente no rastrean el archivo robots.txt cada vez antes de rastrear la página de un sitio web. Además, robots.txt no se actualiza con frecuencia y es necesario analizar el contenido. Por lo general, el rastreador rastrea una vez, analiza una vez y almacena en caché una vez, lo que lleva mucho tiempo. Supongamos que el webmaster actualiza el archivo robots.txt y cambia algunas reglas, pero esto no tendrá efecto inmediatamente para los rastreadores. Solo la próxima vez que el rastreador rastree robots.txt, podrá ver el contenido más reciente. Lo sentimos, la próxima vez que el rastreador rastree robots.txt, el webmaster no lo controlará. Por supuesto, algunos motores de búsqueda también proporcionan herramientas web que permiten a los webmasters notificar a los motores de búsqueda que la URL ha cambiado y recomendar volver a rastrearla. Tenga en cuenta que esta es una sugerencia. Incluso si se notifica al motor de búsqueda, aún no se sabe cuándo lo capturará, pero es mejor que no notificarlo en absoluto. Cuánto mejor sea depende de la conciencia y de las capacidades técnicas del motor de búsqueda.
Ignorar
No sé si es intencional o no. De todos modos, algunos rastreadores no prestan atención al archivo robots.txt o lo ignoran por completo. Esto no descarta problemas de capacidad del desarrollador, como no entender el archivo robots.txt en absoluto. Además, el archivo robots.txt en sí no es una medida de cumplimiento. Si el sitio web tiene datos que deben mantenerse confidenciales, se deben tomar medidas técnicas, como autenticación de usuarios, cifrado, interceptación de IP, control de frecuencia de acceso, etc.
Reptiles maliciosos
En el mundo de Internet, hay innumerables rastreadores que se rastrean las 24 horas del día todos los días, y el número de rastreadores maliciosos es incluso mayor que el de los no maliciosos. Los rastreadores que cumplen con el protocolo de Robots son buenos rastreadores, pero no todos los rastreadores cumplirán activamente con el protocolo de Robots.
Los rastreadores maliciosos plantean muchas amenazas potenciales. Por ejemplo, la información de productos en sitios web de comercio electrónico puede ser utilizada por los competidores cuando se rastrea. Demasiados rastreadores también ocuparán recursos de ancho de banda e incluso provocarán que el sitio web falle.
¿Has aprendido~~~?
¡Me gusta! ! !