¿Qué es el marco del rastreador de Python?
1.Scrapy
Scrapy es un marco de aplicación escrito para rastrear datos de sitios web y extraer datos estructurados. Se puede utilizar en una variedad de programas que incluyen extracción de datos, procesamiento de información o almacenamiento de datos históricos. Con este marco, puede rastrear fácilmente datos como la información de productos de Amazon. (Aprendizaje recomendado: videotutorial de Python)
Dirección del proyecto:/binux/pyspider
3. Crawley
Crawley puede rastrear el contenido del sitio web correspondiente en alto. velocidad, admite bases de datos relacionales y no relacionales, y los datos se pueden exportar a JSON, XML, etc.
Dirección del proyecto:/
4. Periódicos
Los periódicos se pueden utilizar para extraer noticias, artículos y análisis de contenido. Utilice subprocesos múltiples, admita más de 10 idiomas, etc.
Dirección del proyecto:/código Lucas/periódico
5. Delicious Soup
Beautiful Soup es una biblioteca de Python que se puede extraer de datos de archivos HTML o XML. Permite la navegación, búsqueda y modificación habituales de documentos a través de su convertidor favorito. La deliciosa sopa te ahorrará horas o incluso días de trabajo.
Dirección del proyecto:/Software/Meitang/BS4/Doc/
6. Grab
Grab es un marco de Python para crear rastreadores web. Con Grab, puede crear una variedad de herramientas complejas de rastreo web, desde simples scripts de cinco líneas hasta complejas herramientas de rastreo web asíncrono que procesan millones de páginas web. Grab proporciona API para realizar solicitudes de red y procesar contenido recibido, como interactuar con el árbol DOM de un documento HTML.
Dirección del proyecto:/chineking/cola
Para obtener más artículos técnicos relacionados con Python, visite la sección de tutoriales de Python para obtener más información.