Cómo aprender a rastrear Python, ¿qué necesitas aprender?
1. Aprenda los conceptos básicos de Python e implemente el proceso de rastreo básico.
El proceso de obtención de datos generalmente se implementa de acuerdo con tres procesos: enviar una solicitud, obtener comentarios de la página, analizar y almacenar datos. Este proceso es en realidad una simulación del proceso de navegación manual.
Hay muchos paquetes relacionados con rastreadores en Python: urllib, request, bs4, scrapy, pyspider, etc. Podemos conectarnos al sitio web, devolver la página web de acuerdo con la solicitud y usar Xpath para analizar la página web para facilitar la extracción de datos.
2. Comprender el almacenamiento de datos no estructurados
La estructura de datos rastreada por los rastreadores es relativamente compleja y las bases de datos estructuradas tradicionales pueden no ser particularmente adecuadas para nuestro uso. Se recomienda MongoDB en la etapa inicial.
3. Domina algunas habilidades anti-rastreadores comunes.
El uso del grupo de IP proxy, la captura de paquetes y el procesamiento OCR del código de verificación puede resolver la estrategia anti-rastreadores de la mayoría de los sitios web.
4. Comprender el almacenamiento distribuido
La distribución suena aterradora, pero en realidad utiliza el principio de subprocesos múltiples para permitir que varios rastreadores funcionen al mismo tiempo. Necesitas dominar tres cosas. : Herramientas: Scrapy+MongoDB+Redis.