Red de Respuestas Legales - Consulta de información - Cómo utilizar la tecnología de rastreo para capturar información de productos en las páginas de búsqueda de Taobao

Cómo utilizar la tecnología de rastreo para capturar información de productos en las páginas de búsqueda de Taobao

El rastreador de productos Taobao se puede rastrear a través de la biblioteca de solicitudes re biblioteca

solicitudes de importación

importar re

def getHTMLText(url):

pruebe:

r= request.get(url,timeout=30)

r.raise_for_status()

r.encoding = r.apparent_encoding

return r.text

excepto:

return ""

def parsePage(ilt,html):

pruebe:

plt = re.findall(r'\"view_price\":\"[\d+\.]*\"',html)

tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)

para i en el rango(len(plt)):

precio = eval(plt[i].split(':')[1])

título = eval(tlt[i].split(':')[1])

ilt.append([precio,título])

excepto:

print("F")

def printGoodsList(ilt):

tplt = "{:4}\t{:8}\t{:16}"

print(tplt.format("Número de serie","Precio","Producto Nombre "))

cuenta = 0

para g en ilt:

cuenta = cuenta +1

print(tplt.format ( recuento,g[0],g[1]))

def main():

bienes = 'mochila'

profundidad = 2

start_url = "/search?q="+ bienes

infoList = []

para i en el rango(profundidad):

intenta :

url = start_url +'&s='+str(44*i)

html = getHTMLText(url)

parsePage(infoList,html)

p>

excepto:

continuar

printGoodsList(infoList)

main()

Esto El código estaba bien en el pasado Rastreando la información del producto Taobao, pero debido a la actualización de la tecnología anti-caca de Taobao, ya no puedes entrar y salir libremente.

Además, la recopilación también se puede lograr con la ayuda de la recopilación