¿Qué hace el rastreador de Python?
Instalación de herramientas
Necesitamos instalar Python, las solicitudes de Python y las bibliotecas BeautifulSoup. Usamos la biblioteca Requests para capturar el contenido de la página web y la biblioteca BeautifulSoup para extraer datos de la página web.
Instalar Python
Ejecutar pipinstallrequests
Ejecutar pipinstallBeautifulSoup
Capturar páginas web
Después de instalar las herramientas necesarias, Comenzamos oficialmente a escribir nuestro rastreador. Nuestra primera prioridad es capturar toda la información del libro sobre Douban. Tomemos /subject/26986954/ como ejemplo. Primero, echemos un vistazo a cómo rastrear el contenido de una página web.
Usando el método get() proporcionado por las solicitudes de Python, podemos obtener el contenido de la página web especificada de manera muy simple. El código es el siguiente:
Tasa de extracción
.Capturar Después de capturar el contenido de la página web, todo lo que tenemos que hacer es extraer el contenido que queremos. En nuestro primer ejemplo, sólo necesitamos extraer el título del libro. Primero, importamos la biblioteca BeautifulSoup. Con BeautifulSoup podemos extraer el contenido específico de la página web de forma muy sencilla.
Rastreo continuo de páginas web
Hasta ahora hemos podido capturar el contenido de una única página web. Ahora echemos un vistazo a cómo rastrear todo el contenido del sitio web. Sabemos que las páginas web están conectadas entre sí mediante hipervínculos y podemos acceder a toda la red a través de enlaces. De modo que podemos extraer enlaces de cada página a otras páginas y luego rastrear repetidamente nuevos enlaces.
A través de los pasos anteriores, podemos escribir un reptil primitivo. Sobre la base de comprender los principios de los rastreadores, los rastreadores se pueden mejorar aún más.
Escrito una serie de artículos sobre reptiles:/I 6567289381185389064/. Los que estén interesados pueden acercarse y echar un vistazo.
La construcción del entorno básico de Python, los principios básicos de los rastreadores y el prototipo de los rastreadores.
Introducción a los rastreadores de Python (Parte 1)
Cómo utilizar BeautifulSoup para extraer contenido web
Introducción a los rastreadores de Python (Parte 2)
Crawler Almacenamiento de datos de datos en tiempo de ejecución, tomando SQLite y MySQL como ejemplos.
Introducción a los rastreadores de Python (Parte 3)
Uso de seleniumwebdriver para rastrear páginas web dinámicas
Introducción a los rastreadores de Python (Parte 4)
Este artículo analiza cómo abordar las estrategias anti-rastreo para su sitio web.
Introducción a los rastreadores de Python (Parte 5)
Este artículo presenta el marco del rastreador Scrapy de Python y demuestra brevemente cómo desarrollarlo en Scrapy.
Introducción a los rastreadores de Python (Parte 6)