Red de Respuestas Legales - Derecho de patentes - ¿Cómo obtener datos de un sitio web a través de rastreadores web?

¿Cómo obtener datos de un sitio web a través de rastreadores web?

Tomando Python como ejemplo, este artículo presenta brevemente cómo obtener datos de sitios web a través del rastreador web de Python, que se divide principalmente en captura de datos de páginas web estáticas y captura de datos de páginas web dinámicas. El entorno experimental es Win 1Python 3.6+py charm 5.0. El contenido principal es el siguiente:

Datos estáticos de la página web

Los datos aquí están anidados en el código fuente de la página web, por lo que puede solicitar directamente el código fuente de la página web para su análisis. Permítanme presentarlo brevemente a continuación. A continuación se muestra un ejemplo de cómo rastrear los datos en la Enciclopedia de cosas embarazosas:

1. Primero abra la página web original, como se muestra a continuación. Supongamos que los campos que se rastrearán aquí incluyen apodo, contenido, cantidad de chistes y cantidad de comentarios:

Luego mire el código fuente de la página web, como se muestra a continuación, puede ver que todos los datos está anidado en la página web:

p>

2. Luego, para la estructura de la página web anterior, podemos escribir directamente el código del rastreador, analizar la página web y extraer los datos que necesitamos. El código de prueba es el siguiente, muy simple, que utiliza principalmente la combinación de solicitudes + BeautifulSoup, donde las solicitudes se utilizan para obtener el código fuente de la página web y BeautifulSoup se utiliza para analizar la página web y extraer datos:

Haga clic para ejecutar este programa, el efecto es el siguiente, necesitamos Los datos se han rastreado correctamente:

Datos de la página web dinámica

Los datos aquí no están en la fuente código de la página web (por lo que no obtendrás ningún dato al solicitar directamente la página web Most En la mayoría de los casos, se almacenan en archivos json). Los datos sólo se cargarán cuando se actualice la página web. Permítanme presentarles brevemente este método. A continuación se muestra un ejemplo de cómo obtener datos de Renrendai:

1. Primero abra la página web original, como se muestra a continuación. Supongamos que los datos que se rastrearán aquí incluyen la tasa de interés anual, el título del préstamo, el plazo, el monto y el progreso:

Luego presione F12 para abrir las herramientas de desarrollador, haga clic en "Red" -> "XHR" en secuencia y F5 para actualizar la página, puede encontrar el archivo json cargado dinámicamente, de la siguiente manera, estos son los datos que necesitamos capturar:

2. Analizar la información de campo que necesitamos. El código de prueba es el siguiente. También es muy simple. Utiliza principalmente una combinación de solicitudes y json se usa para solicitudes + archivos json, y json se usa para analizar archivos json para extraer datos:

Haga clic para ejecutar este programa. El efecto es el siguiente. Los datos requeridos se han rastreado correctamente:

En este punto, hemos completado el uso del rastreador web de Python para obtener los datos del sitio web. En general, todo el proceso es sencillo. Python tiene muchos paquetes y marcos de rastreadores web integrados (scrapy, etc.) que pueden obtener rápidamente datos del sitio web. Muy adecuado para que los principiantes aprendan y dominen. Siempre que tenga una cierta base sobre el rastreador y esté familiarizado con el proceso y el código anteriores, podrá dominarlo rápidamente. Por supuesto, también puede utilizar software de rastreo ya preparado, como Octopus y Houyi. También hay tutoriales e información relevantes en Internet.