Cómo implementar el agente rastreador de Java
Ya sea que use Java o Python para capturar datos, la IP se bloqueará, por lo que deberá usar una IP proxy para operar por nosotros. Generalmente uso el paquete HttpClient de Java para agregar funcionalidad de proxy dinámico. Estoy usando el proxy HTTP de Sesame. Por supuesto, también puedes elegir otros proveedores de proxy.
1. Primero declare una clase de proxy.
2. Declare un objeto HttpClient y establezca el tiempo de espera.
3. Configure el proxy HTTP de Sesame.
4. Pruebe si el agente actual es útil.
5. Consultar si el servidor nos bloquea. Si devuelve SC_FORBIDDEN, que significa bloqueo, entonces probaremos un agente a la vez, es decir, llamaremos a la función en el paso 4 para determinar si el agente actual es útil.