Cómo resolver el problema de la carga asincrónica de datos mediante el rastreador de Java
1. Kernel del navegador integrado
El navegador integrado inicia un kernel del navegador en el rastreador, para que podamos obtener páginas de representación js. , de modo que solo podamos recopilar páginas estáticas. Hay tres herramientas de uso común:-Selenium-HtmlUnit-PhantomJs.
Estas herramientas pueden ayudarnos a resolver el problema de la carga de datos asincrónica, pero todas tienen desventajas, es decir, baja eficiencia e inestabilidad.
2. Método de análisis inverso
¿Qué es el método de análisis inverso? Los datos de nuestra página de renderizado js se obtienen del backend a través de Ajax. Solo necesitamos encontrar la conexión de solicitud Ajax correspondiente para obtener los datos que necesitamos. La ventaja del método de análisis inverso es que todos los datos obtenidos de esta manera están en formato json, lo que es más conveniente de analizar. Otro beneficio es que es menos probable que cambie la interfaz que la página. Asimismo, tiene dos desventajas. Una es que necesitas paciencia y habilidad con Ajax porque necesitas encontrar lo que buscas en una gran solicitud push, y la otra es que no hay mucho que puedas hacer con una página renderizada en JavaScript.