Control de riesgos del análisis de datos
En En 2008, Discover trasladó su centro de análisis de datos global a Shanghai. Los talentos de control de riesgos que surgen de este centro ya han llenado las principales compañías financieras mutuas nacionales.
Tipo de negocios: préstamos hipotecarios (préstamos para automóviles), préstamos de crédito. (como el préstamo Yiren), préstamos al consumo a plazos (teléfonos móviles, electrodomésticos, etc.), préstamos en efectivo pequeños (500/1000/1500), etc.
El control de riesgos involucra a las empresas: 1) Recopilación de datos: incluidos datos crediticios, datos de operadores, rastreadores, puntos de inserción de sitios web, datos históricos de préstamos, listas negras, datos de terceros, etc.
? 2) Motor antifraude: incluye principalmente reglas antifraude y modelos antifraude.
? 3) Motor de reglas: estrategias de uso común. Utiliza principalmente métodos de análisis de datos para contar las tasas de morosidad en diferentes campos y diferentes rangos, y luego selecciona personas con buen crédito para prestar dinero.
4) Modelo de control de riesgos; cuadro de mando: no hay una diferencia significativa en el algoritmo del modelo, pero se divide según diferentes puntos de tiempo (antes del préstamo/durante el préstamo/después del préstamo), es decir, el objetivo. El método de generación es diferente. Normalmente, la variable objetivo se define por el número de días de mora en el campo de crédito. La tarjeta A puede usar la mayor cantidad de días de mora en el historial del cliente y la tarjeta B puede usar el préstamo vencido más grande en múltiples períodos. Debido a los diferentes propósitos, las formas de crear tarjetas C también son diferentes.
5) Cobranza: Es el medio definitivo de control de riesgos. Este enlace puede generar una gran cantidad de datos que son útiles para el modelo, como descripciones de texto de registros de pago, tasas de llegada, etiquetas de fraude, etc.
1) Los rastreadores pueden rastrear información de aplicaciones móviles. Podemos dividir las aplicaciones móviles en cuatro categorías: herramientas, redes sociales, entretenimiento y finanzas. Cuente el número de cada APP, por lo que hay cuatro características.
2) A partir de los datos del operador se puede saber cuántas llamadas realizó el cliente, cuántos mensajes de texto envió, cuántos datos utilizó y si está en mora.
3) Los informes de crédito a menudo son simplemente puntajes de crédito. Generalmente, cuanto mayor sea la puntuación, mejor será la calidad del cliente.
4) Obtenga retratos de usuarios a partir de información básica, como edad, sexo, registro de hogar, etc. de las tarjetas de identificación.
La versión mejorada de la lista negra es el motor de reglas. Sin embargo, es generado por la experiencia. Por ejemplo, las compañías de seguros pueden negarse a contratar un seguro de devolución para personas que devuelven productos cinco veces seguidas o cuyo índice de devolución alcanza el 80%. Las reglas generalmente requieren mucho esfuerzo para mantenerse y actualizarse y modificarse constantemente; de lo contrario, causarán muchos errores de juicio. Se recomienda denegar el acceso o centrarse en cantidades de efectivo sospechosas y transacciones que excedan un número determinado. Si el número de solicitudes de préstamo dentro de XX días es mayor que un valor determinado, se recomienda rechazarlo.
Por ejemplo, podemos establecer una regla de entrada, como funcionarios, médicos, abogados, etc.
También puede establecer el principio de préstamo directo, por ejemplo, la puntuación de Sésamo es superior a 750 puntos.
Cómo determinar la variable objetivo: tome la tarjeta A como ejemplo, principalmente a través de la tasa de rotación y el año. Por ejemplo, podemos definir a los clientes que tienen una mora de 8 meses y más de 60 días como malos clientes, y a los clientes que no tienen una mora de 8 meses como buenos clientes. Sin embargo, los clientes que tienen ocho meses de retraso en el plazo de 0 a 60 días no están seguros y quedan excluidos de la muestra.
1) Trabajo de preparación: diferentes modelos están dirigidos a diferentes escenarios comerciales. Antes de comenzar el proyecto de modelado, es necesario tener una comprensión clara de la lógica y los requisitos comerciales.
2) Diseño de modelos: incluyendo selección de modelos (cuadro de mando o modelo integrado), modelo único o subdivisión de modelos. Si es necesaria la inferencia de rechazo, cómo definir el período de observación, el período de desempeño y si el usuario es bueno o malo. Determine la fuente de datos
3) Extracción y limpieza de datos: de acuerdo con la definición del período de observación y el período de rendimiento, extraiga datos del grupo de datos para su limpieza y verificación de estabilidad. La limpieza de datos incluye anomalías, eliminaciones y duplicaciones.
Las pruebas de estabilidad examinan principalmente la estabilidad de las variables en series de tiempo, y los indicadores incluyen PSI, IV, media/varianza, etc.
4) Ingeniería de funciones: principalmente preprocesamiento y selección de funciones. El cuadro de mando se filtra principalmente por IV. Además, la construcción de características se llevará a cabo de acuerdo con la comprensión del negocio, incluida la intersección de características (multiplicación/división/producto cartesiano de dos o más características), transformación de características, etc.
5) Construcción y evaluación de modelos: el cuadro de mando se puede seleccionar mediante regresión logística y xgb solo mediante predicción binaria. Una vez establecido el modelo, es necesario evaluarlo y calcular AUC y KS. El modelo fue validado de forma cruzada para evaluar la capacidad de generalización.
6) Implementación del modelo en línea: configure las reglas del modelo en el fondo del control de riesgos. Para algunos modelos complejos como xgb, los archivos del modelo generalmente se convierten al formato pmml para encapsularlos. Cargue archivos y parámetros de configuración en segundo plano.
7) Monitoreo del modelo: en la etapa inicial, el objetivo principal es monitorear la estabilidad de todo el modelo y las variables. La medida principal es el PSI (Índice de Estabilidad de la Población). De hecho, el psi es la diferencia entre las proporciones reales y esperadas en cada intervalo de puntuación dividida por la puntuación. Si es inferior a 10, no es necesario actualizar el modelo. Si es inferior a 25, debes centrarte en el modelo. Si es mayor que 25, es necesario actualizar el modelo. El modelo de cálculo psi generalmente adopta la misma frecuencia y se puede dividir en 10 cuadros.
1. ¿Cuáles son los significados y diferencias de la Tarjeta A, la Tarjeta B y la Tarjeta C?
Solicitar un cuadro de mando: solicitar un cuadro de mando durante el procesamiento de las solicitudes de los clientes, predice la probabilidad de incumplimiento y el riesgo de incumplimiento dentro de un cierto período de tiempo después de que el cliente abre una cuenta, eliminando efectivamente las solicitudes. Clientes con mal crédito y clientes no objetivo. Al mismo tiempo, se valora el riesgo para el cliente, determinando el importe y el tipo de interés. Los datos utilizados son principalmente información como registros crediticios anteriores de los usuarios, préstamos a largo plazo y registros de consumo.
Tarjeta B (cuadro de mando de comportamiento): un cuadro de mando de comportamiento que predice el rendimiento crediticio futuro de una cuenta en función de diversas características de comportamiento en el historial de la cuenta durante la gestión de la cuenta. El primero es prevenir y controlar los riesgos en los préstamos, y el segundo es ajustar los límites de usuarios. Los datos utilizados son principalmente datos de inicio de sesión, navegación y comportamiento de consumo de los usuarios en esta plataforma. También hay datos sobre el rendimiento de los préstamos, como los reembolsos y los retrasos en los préstamos.
tarjeta c (¿cobro? ¿puntuación? tarjeta): cuadro de mando de cobro, que predice la probabilidad de respuesta a cuentas vencidas y toma las medidas de cobro correspondientes.
Las diferencias entre las tres tarjetas:
Los requisitos de datos son diferentes: una tarjeta generalmente se puede usar para análisis de crédito de préstamos de 0 a 1 año. La tarjeta B se analiza utilizando big data después de que el solicitante tiene ciertos comportamientos. La tarjeta C requiere más datos y los datos de atributos, como las respuestas de los clientes, deben agregarse después de la recopilación.
Diferentes características: Una tarjeta utiliza mayoritariamente los antecedentes del solicitante, como información básica rellenada por el cliente, información de terceros, etc. Y este modo es generalmente más cauteloso. B Cali utiliza muchas funciones basadas en transacciones.
2. ¿Por qué elegir el modelo de regresión logística en el ámbito del control de riesgos?
1) En primer lugar, la regresión logística es robusta porque es menos sensible que otros modelos de alta complejidad.
2) El modelo es intuitivo y el significado de los coeficientes es fácil de interpretar y comprender.
La desventaja es que es fácil de ajustar insuficientemente y la precisión no es muy alta. Además, los requisitos de datos son relativamente altos y sensibles a la colinealidad de características faltantes, anormales y.
3. ¿Por qué utilizar IV en lugar de WOE para filtrar funciones?
Porque IV tiene en cuenta el impacto de la proporción muestral en el grupo. Incluso si el WOE de este grupo es alto, si la proporción de la muestra del grupo es pequeña, la capacidad predictiva final de esta característica puede seguir siendo pequeña.
4.Indicadores ROC y ks (KS es 0,2-0,75, auc es 0,5-0,9)
La curva ROC toma TP y FP como abscisas y ordenadas, y la curva KS toma TP como abscisa y ordenada y FP son las coordenadas verticales y el eje horizontal es el umbral. KS puede encontrar el grupo con la mayor diferencia en el modelo. Si es mayor que 0,2, se puede considerar que tiene una mejor precisión de predicción. La República de China puede reflejar el efecto de diferenciación general.
5. Método de división de cajas y mala monotonicidad
Actualmente en la industria, la gente usa algoritmos codiciosos para dividir cajas, como best_ks, división de chi-cuadrado, etc. La monotonicidad de Badrate solo se considera en el proceso de dividir variables numéricas continuas en variables discretas ordenadas (como el nivel/tamaño de educación). En cuanto a por qué deberíamos considerar la monotonicidad de badrate, se debe principalmente a la comprensión empresarial. Por ejemplo, cuanto más atrasado esté el historial, mayor será la tasa de defectos.
6. ¿Por qué los diferentes modelos de control de riesgos generalmente no utilizan las mismas funciones?
Las personas rechazadas son pobres por determinadas características. Si se utilizan las mismas características para la selección repetida, con el tiempo, no habrá tales personas en las muestras que se modelarán en el futuro. Por lo tanto, la distribución muestral de la característica cambia.
7. ¿Cuáles son los algoritmos no supervisados que se utilizan en el control de riesgos?
Algoritmo de agrupamiento, detección de valores atípicos basada en gráficos, LOF (factor de valores atípicos locales), bosque aislado, etc.
8. División de chi-cuadrado
La agrupación de chi-cuadrado es un método de discretización de datos basado en la fusión. La idea básica es fusionar intervalos adyacentes con distribuciones de clases similares. Cuanto menor sea el valor de chi-cuadrado, más similares serán los dos intervalos. Por supuesto, la fusión infinita no es posible. Le ponemos un umbral. Se deriva en términos de grados de libertad y confianza. Por ejemplo, si el número de clases es N, entonces los grados de libertad son N-1. La confianza representa la probabilidad de que ocurra. Generalmente puedes obtener 90.
Empaquetado best-ks
A diferencia del empaquetado chi-cuadrado, el empaquetado best-ks es un proceso paso a paso. Ordene los valores de las características de pequeño a grande, el valor más grande de KS es el punto de corte y luego divida los datos en dos partes. Repita este proceso hasta que el número de cajas alcance nuestro umbral preestablecido.
10.¿Rechazar la inferencia? Inferencia)
La solicitud de una tarjeta de puntuación utiliza los datos históricos de los clientes de crédito aprobados para construir un modelo, pero este modelo ignorará el impacto del grupo de clientes originalmente rechazado en el modelo de la tarjeta de puntuación. Para que el modelo sea más preciso y estable, es necesario corregirlo mediante la inferencia de rechazo. Además, los cambios en las reglas de la empresa pueden permitir que los clientes que fueron rechazados en el pasado regresen ahora. Adecuado para escenarios con baja tasa de aprobación.
Método utilizado comúnmente: método de truncamiento estricto: primero use el modelo inicial para calificar a los usuarios rechazados y establecer un umbral. Las puntuaciones superiores a esta se marcan como buenos usuarios; en caso contrario, como malos usuarios. Luego, los usuarios rechazados etiquetados se agregan a la muestra para volver a entrenar el modelo. Método de asignación: este método es adecuado para cuadros de mando. Agrupe la muestra por puntuación y calcule la tasa de incumplimiento para cada grupo. Luego, los usuarios rechazados se califican y agrupan según el método anterior. Según la proporción de muestreo de la tasa de incumplimiento de cada grupo, los usuarios predeterminados del grupo se seleccionan aleatoriamente y se designan como malos usuarios, y los usuarios restantes se marcan como buenos usuarios. Los usuarios rechazados etiquetados luego se agregan a la muestra para volver a capacitarlos.
11. ¿Cómo garantizar la estabilidad del modelo al modelar?
1) En la etapa de preprocesamiento de datos, la estabilidad de las variables en la serie temporal se puede verificar calculando la diferencia en los IV mensuales y observando el cambio en la cobertura de la variable y la diferencia en el PSI en dos puntos temporales. Por ejemplo, seleccionamos conjuntos de datos de 1 a 10 meses, nos basamos en la idea de verificación K-fold y obtenemos 10 conjuntos de resultados de verificación. Observe si hay cambios importantes de tendencia en el modelo a medida que pasan los meses.
2) En la etapa de selección de variables se eliminan las variables que son contrarias al entendimiento empresarial. Si es un cuadro de mando, puede eliminar variables que sean demasiado discriminatorias. El modelo se verá muy afectado por esta variable y su estabilidad disminuirá.
3) Validación cruzada, una es validación cruzada de series de tiempo y la otra es validación cruzada de K veces.
4) Elige un vehículo con buena estabilidad. ¿Como xgb? Bosque aleatorio, etc.
12. ¿Cómo lidiar con características dispersas y débiles de alta dimensión?
Para funciones dispersas de alta dimensión, la regresión logística es mejor que gbdt. La desventaja de esto último es principalmente la profundidad del árbol y el número de hojas, lo cual no es demasiado severo para datos escasos y es fácil de sobreajustar. Usando el cuadro de mando de regresión logística, las características se pueden discretizar en 0 y no 0, y luego codificar.
Si se utilizan cuadros de mando para modelar, las características débiles generalmente se descartan.
El cuadro de mando no debe tener demasiadas características, generalmente menos de 15. Xgb tiene bajos requisitos de datos y buena precisión. La combinación cruzada de características débiles puede tener efectos inesperados.
13. Después de poner el modelo en línea, se descubrió que la estabilidad no era buena o que el efecto de discriminación en línea no era bueno. ¿Cómo ajustarlo?
El modelo es inestable. Primero, verifique si se tuvo en cuenta la estabilidad de la característica al modelar. Si se encuentran variables con poca estabilidad en la etapa inicial del modelo, puede considerar descartarlas o reemplazarlas con otras variables. Además, se analizaron las diferencias de distribución entre los usuarios y usuarios en línea y fuera de línea durante el modelado, y se consideraron los pasos de inferencia de rechazo durante el modelado para acercar la distribución de las muestras de modelado a los usuarios reales de la aplicación en general.
El mal desempeño online se puede analizar desde la perspectiva de variables. Elimina variables con bajo rendimiento y descubre nuevas variables en el modelo. Si un modelo ha estado en línea durante mucho tiempo y los atributos del usuario cambian lentamente, vuelva a buscar los datos para crear el siguiente modelo.
14. Cómo iniciar en frío el modelo de control de riesgos
Cuando se lanzó el producto por primera vez, no se acumulaban datos de usuario o los usuarios no mostraban un desempeño bueno o malo. En este momento, puedes considerar: 1) No hacer modelos, solo hacer reglas. Con experiencia empresarial, establecer algunas regulaciones rígidas, como establecer umbrales de acceso para los usuarios, considerar los antecedentes crediticios de los usuarios y los riesgos a largo plazo, y reglas para acceder a servicios antifraude y productos de datos de terceros. También se puede combinar con la revisión manual para realizar una evaluación de riesgos en los materiales de solicitud del usuario. 2) Modelado de datos con la ayuda de modelos similares.
15. Problema de desequilibrio de muestra
Además de ajustar los pesos de clase, los métodos de muestreo se utilizan principalmente para resolver este problema. Los más comunes incluyen sobremuestreo aleatorio ingenuo, SMOTE y ADASYN (sobremuestreo sintético adaptativo).
16. Procesamiento de datos del operador
Según la fecha de la llamada, los registros de llamadas se pueden dividir en los últimos 7 días, el último medio mes, el último mes, los últimos 3 meses. , los últimos 6 meses, etc. ventana de tiempo. También se puede dividir en días laborables, festivos, etc. según fechas concretas. Dependiendo del horario de la llamada, un día se puede dividir en madrugada, mañana, tarde y noche. En cuanto a los números de teléfono, una idea es dividir provincias y ciudades según su lugar de pertenencia, y otra idea es etiquetar los números para distinguir entre entrega urgente, llamadas de acoso, instituciones financieras, intermediarios, etc. Según la etiqueta de la compañía telefónica, Baidu Mobile Guard y Sogou Number Pass. Incluso distingue si el número es un usuario en la lista negra, un solicitante o un usuario rechazado según la acumulación de negocios. La comunicación entre usuarios y diferentes etiquetas numéricas puede reflejar los hábitos de comunicación y las características de vida del usuario.
17. Regresión por pasos
Cuando la relación entre variables independientes es compleja y es difícil comprender la selección de variables, se puede utilizar el método de regresión por pasos para seleccionar variables. La idea básica de la regresión por pasos es introducir variables en el modelo una por una, realizar una prueba f en cada variable introducida y realizar una prueba T en las variables seleccionadas. Cuando una variable introducida inicialmente ya no es significativa después de la introducción de una variable posterior, se elimina la variable original. Asegúrese de que solo se incluyan variables importantes en la ecuación de regresión antes de cada introducción de nuevas variables.
18. ¿Por qué a menudo se realiza una combinación de características (cruce de características) en la regresión logística?
La regresión logística es un modelo lineal generalizado. La combinación de características puede introducir características no lineales para mejorar la capacidad de expresión del modelo.
Parte del artículo citado: /content/qita/775233/article/jxwvkab 9t 7m pwhxj 9 ymu/developer/article/1489429? /desarrollador/artículo/1059236? /taenggu 0309/función-scorecard