Red de Respuestas Legales - Derecho empresarial - Cómo rastrea Excel los datos web Rastreo de datos JSON

Cómo rastrea Excel los datos web Rastreo de datos JSON

Abra Chrome, busque la ubicación de "Análisis de datos" de la Bolsa de Valores de Shenzhen en Lagou.com y utilice la función de inspección para verificar el código fuente de la página web. Se descubrió que Lagou.com tiene un mecanismo anti-rastreo. La información de ubicación no está en el código fuente, sino que se almacena en un archivo JSON, por lo que descargamos directamente el JSON y leemos los datos directamente usando el método del diccionario.

Al rastrear una página web, debe agregar información del encabezado para obtener los datos que necesita.

En la primera página de los resultados de búsqueda, podemos leer el número total de posiciones de JSON y obtener el número de páginas a rastrear en función de 15 posiciones por página. Luego use un bucle para rastrear página por página, resumir la información de ubicación y generarla en formato CSV.

El programa se ejecuta como se muestra en la siguiente figura:

Los resultados de la captura son como se muestran en la figura:

La limpieza de datos representa la mayoría de los datos. carga de trabajo de análisis. Encuentre trabajos de "análisis de datos" en Shenzhen en Lagou. Contamos con 369 ubicaciones. Cuando miré los títulos de los puestos de trabajo, vi que había 4 puestos de prácticas. Debido a que estamos estudiando para puestos de tiempo completo, primero eliminaremos los puestos de pasantías. Debido a que la experiencia laboral y el salario son rangos en forma de cadenas, primero usamos expresiones regulares para extraer los valores y generarlos en forma de lista. La experiencia laboral promedio y los salarios del cuartil se acercan a la realidad.

4. Nube de palabras

Resumimos los datos en la columna de beneficios laborales, generamos una cadena y generamos una nube de palabras según la frecuencia de las palabras para lograr la visualización en Python. A continuación se muestra una comparación de la imagen original y la nube de palabras. Se puede observar que entre los beneficios laborales aparecen con mayor frecuencia cinco seguros y un fondo, seguidos de plataformas, beneficios, espacio de desarrollo y trabajo flexible.

5. Estadísticas descriptivas

Se puede observar que el valor promedio de los analistas de datos es 14,6K y la mediana es 12,5K. Es una carrera prometedora. El análisis de datos se encuentra disperso en varias industrias, pero en un nivel avanzado implica minería de datos y aprendizaje automático, que ha logrado grandes avances en la industria de TI.

Veamos la distribución de salarios. Esta es una referencia importante para la búsqueda de empleo:

La mayoría de los puestos son con un salario de 10-15K, seguidos por aquellos con un salario de 10.000-15.000. 15-20K. En mi humilde opinión, los puestos de 10 a 15 mil se basan principalmente en el modelado, y los puestos por encima de 20 mil se basan principalmente en la minería de datos y la arquitectura de big data.

Echemos un vistazo a la distribución de empleos en cada distrito:

El 62,9% de los puestos de análisis de datos están en el distrito de Nanshan, el 25,8% en el distrito de Futian y el resto se distribuyen en Distrito de Longgang, distrito de Luohu, distrito de Baoan, nuevo distrito de Longhua. Podemos ver que el distrito de Nanshan y el distrito de Futian son los centros de la industria tecnológica de Shenzhen.

Queremos conseguir la relación entre salario, experiencia laboral y formación. Debido a que la educación se divide en tres categorías, necesitamos establecer tres variables ficticias: universidad, licenciatura y maestría. Los resultados de la regresión múltiple son los siguientes:

En el nivel de significancia de 0,05, el valor F es 82,53, lo que indica que la relación de regresión es significativa. La prueba t y el valor P correspondiente son menores que 0,05, lo que indica que la experiencia laboral y las tres calificaciones académicas son estadísticamente significativas. Además, el valor de R cuadrado es 0,41, lo que indica que la experiencia laboral y el nivel educativo sólo explican el 41% de la variabilidad salarial. No es difícil de entender, incluso si todos los puestos se llaman analistas de datos, el contenido del trabajo real es muy diferente. Algunos solo usan Excel para el análisis básico y otros usan Python y R para la extracción de datos. Además, cada empresa difiere en tamaño y en la compensación que están dispuestas a ofrecer. Sin embargo, debido a las diferencias en el contenido de los puestos de trabajo y a la generosidad de las empresas, es difícil obtener datos reales únicamente a través de promociones en las páginas web de contratación, lo que lleva a la realidad de que la bondad de ajuste del modelo no es muy buena.