Red de Respuestas Legales - Derecho empresarial - ¿Cómo rastrea los datos el rastreador de Python después de iniciar sesión en Zhihu?

¿Cómo rastrea los datos el rastreador de Python después de iniciar sesión en Zhihu?

Inicio de sesión simulado

Muchos sitios web, como Zhihu, Weibo, Douban, etc., requieren iniciar sesión para explorar algunos contenidos. Entonces, si desea rastrear este tipo de sitio web, primero debe simular el inicio de sesión. Una forma más sencilla es utilizar las cookies de este sitio. La cookie equivale a un cuadro de contraseña, que almacena información básica sobre los usuarios de este sitio web. Después de iniciar sesión una vez, el sitio web recordará su información y la colocará en una cookie para facilitar el inicio de sesión automático la próxima vez. Por lo tanto, la estrategia para rastrear este tipo de sitios web es: primero iniciar sesión manualmente para obtener cookies y luego, al iniciar sesión nuevamente, llamar a la cookie obtenida en el último inicio de sesión para implementar el inicio de sesión automático.

Rastreo dinámico

Al rastrear preguntas en Zhihu, debes deslizar la rueda del mouse hacia la parte inferior para mostrar nuevas respuestas. El método de rastreo estático no puede hacer esto y se puede introducir la biblioteca de selenio para resolver este problema. La biblioteca Selenium simula personas que navegan por sitios web y operaciones, lo cual es simple y fácil de entender.