¿Cómo utilizar Python para rastrear datos de sitios web?
Obtenga los datos estáticos del sitio web (los datos están en el código fuente de la página web): tome los datos del sitio web de la enciclopedia como ejemplo
1. Supongamos que los datos que rastreamos son los siguientes, incluidos principalmente el apodo del usuario, el contenido, la cantidad de chistes y la cantidad de comentarios, de la siguiente manera:
El código fuente de la página web correspondiente es el siguiente, que incluye los datos que necesitamos:
2. Estructura de la página web correspondiente, código principal como sigue, muy simple. Utiliza principalmente solicitudes BeautifulSoup, donde las solicitudes se utilizan para solicitar páginas y BeautifulSoup se utiliza para analizar páginas:
La captura de pantalla que ejecuta el programa es la siguiente, los datos se han rastreado correctamente:
Capture datos dinámicos del sitio web (datos que no están en el código fuente de la página web, json y otros archivos): tome los datos del sitio web de Renrendai como ejemplo.
1. Supongamos que estamos capturando datos de bonos, que incluyen principalmente cinco campos: tasa de interés anual, título del préstamo, plazo, monto y progreso. La captura de pantalla es la siguiente:
Cuando abre el código fuente de la página web, encontrará que estos datos no están en el código fuente de la página web. Cuando presione F12 para el análisis de paquetes, lo encontrará en el archivo json, como se muestra a continuación:
2. Después de obtener la URL del archivo json, podemos obtener los datos correspondientes. El paquete utilizado aquí es similar al anterior. Como es un archivo json, también usamos el paquete json (parse json). El contenido principal es el siguiente:
La captura de pantalla del programa ejecutándose es la siguiente, los datos se capturaron con éxito:
Hasta ahora, este artículo ha introducido la captura de estos dos tipos de datos, incluidos datos estáticos y datos dinámicos. En general, estos dos ejemplos no son difíciles. Todos son rastreadores de nivel básico y la estructura de la página web es relativamente simple. Lo más importante es analizar y extraer la página. Una vez que se familiarice con él, podrá utilizar scrapy para capturar datos, lo cual es más conveniente y eficiente. Por supuesto, si la página capturada es más complicada, como el código de verificación y el cifrado, entonces debe analizarla detenidamente. También hay algunos tutoriales en Internet.