Red de Respuestas Legales - Derecho de bienes - ¿Cómo utilizar Python para rastrear sitios web estáticos y sus recursos internos?

¿Cómo utilizar Python para rastrear sitios web estáticos y sus recursos internos?

Esto es muy simple. Se puede implementar fácilmente con la combinación de solicitudes + BeautifulSoup. Lo presentaré brevemente a continuación. Los amigos interesados ​​​​pueden probarlo ellos mismos. datos del sitio web (sitio web estático):

1. Primero, instale el módulo de solicitudes. Simplemente ingrese el comando "pipinstallrequests" directamente en la ventana cmd, de la siguiente manera:

2. el módulo bs4, que contiene BeautifulSoup. Install Si es así, al igual que las solicitudes, simplemente ingrese el comando de instalación "pipinstallbs4" directamente, de la siguiente manera:

3. Las solicitudes de Encyclopedia of Embarrassing Things se utilizan para solicitar la página y BeautifulSoup se utiliza para analizar la página y extraer datos. Los pasos principales y las capturas de pantalla son los siguientes:

Se supone que los datos rastreados contienen. los siguientes campos, incluido el apodo del usuario, el contenido, la cantidad de números divertidos y la cantidad de comentarios: luego abra el código fuente de la página web correspondiente y podrá verlo directamente Vaya al campo de información, el contenido es el siguiente, anidado en cada uno etiqueta y luego analiza estas etiquetas para extraer datos:

Basado en el contenido de la página web anterior, el código de prueba es el siguiente, muy simple, busque directamente la etiqueta correspondiente y extraiga el contenido del texto. Puede:

La captura de pantalla que ejecuta el programa es la siguiente y los datos del sitio web se capturaron con éxito:

En este punto, hemos completado el uso de Python para rastrear sitios web estáticos. En general, todo el proceso es muy simple y también es el contenido del rastreador más básico. Siempre que tenga cierta base en Python y esté familiarizado con los ejemplos anteriores, puede dominarlo rápidamente. urllib y coincidencia de expresiones regulares. Espere, lo que sea. También hay tutoriales e información relevantes en Internet. Si está interesado, puede buscarlo. También son bienvenidos a comentar y dejar mensajes para agregar.