Cómo utilizar la tecnología de rastreo para capturar información de productos en las páginas de búsqueda de Taobao
El rastreador de productos Taobao se puede rastrear a través de la biblioteca de solicitudes re biblioteca
solicitudes de importación
importar re
def getHTMLText(url):
pruebe:
r= request.get(url,timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
excepto:
return ""
def parsePage(ilt,html):
pruebe:
plt = re.findall(r'\"view_price\":\"[\d+\.]*\"',html)
tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)
para i en el rango(len(plt)):
precio = eval(plt[i].split(':')[1])
título = eval(tlt[i].split(':')[1])
ilt.append([precio,título])
excepto:
print("F")
def printGoodsList(ilt):
tplt = "{:4}\t{:8}\t{:16}"
print(tplt.format("Número de serie","Precio","Producto Nombre "))
cuenta = 0
para g en ilt:
cuenta = cuenta +1
print(tplt.format ( recuento,g[0],g[1]))
def main():
bienes = 'mochila'
profundidad = 2 p >
start_url = "/search?q="+ bienes
infoList = []
para i en el rango(profundidad):
intenta :
url = start_url +'&s='+str(44*i)
html = getHTMLText(url)
parsePage(infoList,html)
p>
excepto:
continuar
printGoodsList(infoList)
main()
Esto El código estaba bien en el pasado Rastreando la información del producto Taobao, pero debido a la actualización de la tecnología anti-caca de Taobao, ya no puedes entrar y salir libremente.
Además, la recopilación también se puede lograr con la ayuda de la recopilación