Red de Respuestas Legales - Derecho empresarial - Introducción al conjunto de herramientas de rastreo web de programación Python

Introducción al conjunto de herramientas de rastreo web de programación Python

Introducción Para un proyecto de desarrollo de ingeniería de software, se debe comenzar con la obtención de datos. No importa cómo se procese el texto, el aprendizaje automático y la minería de datos requieren datos, además de los datos profesionales comprados o descargados a través de algunos canales, a menudo necesitamos rastrear los datos nosotros mismos, lo que es particularmente importante. ¿Juegos de herramientas? ¿Qué? Déjame presentártelos uno por uno.

1. Beautiful Soup

Objetivamente hablando, Beautiful Soup no es completamente un conjunto de herramientas de rastreo que deben usarse junto con urllib, sino un conjunto de análisis de datos HTML/XML. , cosa de limpieza y adquisición.

2. Scrapy

Scrapy es similar a Scrapy, un marco rápido de rastreo web y raspado de pantalla de alto nivel

para

Python. Muchos estudiantes han escuchado que muchos cursos en el mapa de cursos se basan en Scrapy. Hay muchos artículos introductorios en esta área. Recomiendo un artículo de Daniel pluskid en sus primeros años: "Scrapy

Web de personalización fácil. Crawler", atemporal.

3. Python-Goose

Goose se escribió primero en Java y luego se reescribió en Scala. Es un proyecto de Scala. Python-Goose está reescrito en Python y se basa en Beautiful

Soup. Dada la URL de un artículo, es muy conveniente obtener el título y el contenido del artículo, y es muy agradable de usar.

Lo anterior es una introducción al conjunto de herramientas de rastreo web de programación Python. Espero que pueda ser útil para todos los que hacen programación en Python. Por supuesto, aprender a programar en Python requiere no solo el aprendizaje de herramientas, sino también un aprendizaje. muchos conocimientos de programación, que también hay que aprender bien. ¡Levántate, vamos!