El contenido de la página web se genera dinámicamente a partir de json, ¿cómo rastrearlo?
Hay dos soluciones básicas para capturar páginas con contenido generado dinámicamente js.
1 Utilice la biblioteca dryscrape para rastrear páginas dinámicamente
El navegador ejecuta el script Js y devuelve información. Por lo tanto, una de las formas más directas de capturar la página después de la ejecución de js es usar Python para simular el comportamiento del navegador. Webkit es un motor de navegador de código abierto. Python proporciona muchas bibliotecas para llamar a este motor y dryscrape es una de ellas. ¡Llama al motor WebKit para procesar páginas web que contienen js, etc.!
2 marco de pruebas web de selenium
Selenium es un marco de pruebas web que permite llamar al motor del navegador local para enviar solicitudes de páginas web, por lo que también puede cumplir con los requisitos de rastreo de páginas.