Red de Respuestas Legales - Directorio de abogados - ¿Qué es un gráfico de conocimiento? ¿Qué valores de aplicación tiene?

¿Qué es un gráfico de conocimiento? ¿Qué valores de aplicación tiene?

El gráfico de conocimiento es un foco de investigación actual. Desde que Google lanzó la primera versión del gráfico de conocimiento en 2012, ha provocado una locura en el mundo académico y la industria. En solo un año, las principales empresas de Internet lanzaron sus propios productos de gráficos de conocimiento en respuesta. Por ejemplo, en China, los gigantes de Internet Baidu y Sogou lanzaron Zhixin y Knowledge Cube respectivamente para mejorar la calidad de sus búsquedas. Entonces, en comparación con estas empresas tradicionales de Internet, ¿qué tipo de aplicaciones pueden tener los gráficos de conocimiento para las finanzas de Internet más avanzadas en la industria actual?

Contenidos

1. ¿Qué es un mapa de conocimiento?

2. Representación del mapa de conocimiento

3. Almacenamiento del mapa de conocimiento

4.

6. Conclusión

1. ¿Qué es un mapa de conocimiento?

El mapa de conocimiento es esencialmente una red semántica, una estructura de datos basada en gráficos compuesta de nodos y bordes. En el gráfico de conocimiento, cada nodo representa una "entidad" que existe en el mundo real y cada borde es una "relación" entre entidades. Los mapas de conocimiento son la forma más eficaz de expresar relaciones. En términos generales, un mapa de conocimiento es una red de relaciones que conecta todos los diferentes tipos de información. El gráfico de conocimiento brinda la capacidad de analizar problemas desde una perspectiva de "relación".

El concepto de gráfico de conocimiento fue propuesto por primera vez por Google y se utiliza principalmente para optimizar los motores de búsqueda existentes. A diferencia de los motores de búsqueda tradicionales basados ​​en la búsqueda de palabras clave, los gráficos de conocimiento pueden consultar mejor información relacionada compleja, comprender las intenciones del usuario desde un nivel semántico y mejorar la calidad de la búsqueda. Por ejemplo, si ingresa Bill Gates en el cuadro de búsqueda de Google, la información relacionada con Bill Gates, como fecha de nacimiento, situación familiar, etc., aparecerá en el lado derecho de la página de resultados de búsqueda.

Además, para frases de búsqueda un poco más complejas, como "¿Quién es la esposa de Bill Gates?", Google también puede devolver con precisión a su esposa Melinda Gates. Esto muestra que el motor de búsqueda realmente comprende la intención del usuario a través del gráfico de conocimiento.

Los gráficos de conocimiento mencionados anteriormente pertenecen todos a una categoría más amplia y resuelven los problemas de optimización de motores de búsqueda y sistemas de preguntas y respuestas en campos generales. A continuación, echemos un vistazo a la representación y aplicación de gráficos de conocimiento de dominios específicos en campos específicos, que también es un tema de preocupación para la industria.

2. Representación del mapa de conocimiento

Supongamos que usamos un mapa de conocimiento para describir un hecho) - "Zhang San es el padre de Li Si". Las entidades aquí son Zhang San y Li Si, y la relación es "padre" (is_father_of). Por supuesto, Zhang San y Li Si también pueden tener alguna relación con otras personas (no considerada por el momento). Cuando agregamos un número de teléfono como nodo al gráfico de conocimiento (los números de teléfono también son entidades), también podemos definir una relación entre una persona y un teléfono, llamada has_phone, lo que significa que un número de teléfono pertenece a una determinada persona. El siguiente diagrama muestra estas dos relaciones diferentes.

Además, podemos agregar tiempo como atributo en la relación has_phone para indicar la hora en que el número de teléfono está abierto. Estos atributos se pueden agregar no sólo a las relaciones, sino también a las entidades. Cuando toda esta información se agrega como atributos de relaciones o entidades, el mapeo resultante se llama gráfico de propiedades. Tanto los gráficos de atributos como los formatos RDF tradicionales se pueden utilizar como métodos de representación y almacenamiento para gráficos de conocimiento, pero existen diferencias entre los dos, que se explicarán brevemente en los siguientes capítulos.

3. Almacenamiento del mapa de conocimiento

El mapa de conocimiento es una estructura de datos basada en gráficos y su método de almacenamiento tiene principalmente dos formas: formato de almacenamiento RDF y base de datos de gráficos. En cuanto a sus diferencias, consulte 1. La siguiente curva muestra el desarrollo de varios tipos de almacenamiento de datos en los últimos años. Desde aquí, podemos ver claramente el rápido desarrollo del almacenamiento basado en gráficos en todo el campo del almacenamiento de bases de datos. Este gráfico proviene del gráfico La popularidad de DBMS ha aumentado en un 500% en los últimos dos años.

La siguiente lista muestra la clasificación de las bases de datos actualmente populares según el almacenamiento de gráficos. Se puede ver en esta clasificación que Secondary ocupa la posición número 1 en todo el campo de almacenamiento de gráficos, y Jena sigue siendo el marco de almacenamiento más popular en el campo RDF.

Esta parte de los datos proviene del ranking DB-Engines.

Por supuesto, si el gráfico de conocimiento a diseñar es muy simple y la consulta no involucra consultas relacionadas de más de 1 grado, también podemos optar por utilizar un formato de almacenamiento de datos relacional para guardar el gráfico de conocimiento. . Pero para aquellas redes de relaciones ligeramente complejas (las entidades y relaciones en la vida real son generalmente más complejas), las ventajas de los gráficos de conocimiento siguen siendo muy obvias. En primer lugar, en comparación con los métodos de almacenamiento tradicionales, la eficiencia de las búsquedas conjuntas mejorará significativamente. Cuando involucramos consultas relacionadas de 2 o 3 grados, la eficiencia de la consulta basada en gráficos de conocimiento será miles o incluso millones de veces mayor. En segundo lugar, el almacenamiento basado en gráficos tendrá un diseño muy flexible y generalmente solo requerirá cambios locales. Por ejemplo, si tenemos una nueva fuente de datos, sólo necesitamos insertarla en el mapa existente. Por el contrario, la flexibilidad del modelo de almacenamiento relacional es muy pobre. Todos sus modelos están definidos de antemano. Si se va a cambiar más adelante, el costo es muy alto. Al final, almacenar entidades y relaciones en una estructura de datos gráfica es la mejor manera de adaptarse a la lógica de toda la historia.

4. Aplicación

Este artículo analiza principalmente la aplicación del mapa de conocimiento en la industria financiera de Internet. Por supuesto, muchos escenarios de aplicación e ideas se pueden extender a otras industrias. Los escenarios de aplicación mencionados aquí son sólo la punta del iceberg. Hay muchas otras aplicaciones en las que los gráficos de conocimiento todavía tienen un valor potencial, que continuaremos analizando en artículos posteriores.

Antifraude

La lucha contra el fraude es una parte muy importante del control de riesgos. La dificultad de la lucha contra el fraude basada en big data es cómo integrar datos de diferentes fuentes (estructurados y no estructurados), construir un motor antifraude e identificar eficazmente casos de fraude (como fraude de identidad, fraude grupal, empaquetado de agencias, etc.). ). Y hay muchos fraudes. Los casos implicarán una compleja red de relaciones, lo que también plantea nuevos desafíos a las auditorías de fraude. Como expresión directa de relaciones, los mapas de conocimiento pueden resolver bien estos dos problemas. En primer lugar, el gráfico de conocimiento proporciona una manera muy conveniente de agregar nuevas fuentes de datos, como se mencionó anteriormente. En segundo lugar, al utilizar el gráfico de conocimiento en sí para representar relaciones, este método de representación intuitivo puede ayudarnos a analizar riesgos potenciales específicos en relaciones complejas de manera más efectiva.

El núcleo de la lucha contra el fraude son las personas. En primer lugar, es necesario abrir todas las fuentes de datos relacionadas con los prestatarios y crear un gráfico de conocimiento que contenga múltiples fuentes de datos para integrarlas en un conocimiento estructurado que las máquinas puedan entender. Aquí no solo se puede integrar la información básica del prestatario (como la información completada durante la solicitud), sino que los registros de consumo, registros de comportamiento y registros de navegación de Internet del prestatario también se pueden integrar en todo el gráfico de conocimiento para su análisis y predicción. Una dificultad aquí es que muchos datos son datos no estructurados obtenidos de Internet, que deben convertirse en datos estructurados mediante el aprendizaje automático y la tecnología de procesamiento del lenguaje natural.

Verificación de inconsistencia

La verificación de inconsistencia se puede utilizar para determinar el riesgo de fraude de un prestatario, de manera similar a la validación cruzada. Por ejemplo, el prestatario Zhang San y el prestatario Li Si completaron el mismo número de teléfono de la empresa, pero la empresa completada por Zhang San y la empresa completada por Li Si son completamente diferentes. Esto se convierte en un punto de riesgo y requiere atención especial por parte de. auditores.

Para otro ejemplo, el prestatario dijo que Zhang San es un amigo y Li Si tiene una relación de padre e hijo. Cuando intentamos agregar la información de un prestatario al gráfico de conocimiento, se activa el motor de "verificación de coherencia". El motor primero leerá la relación entre Zhang San y Li Si para verificar si esta "relación triangular" es correcta. Es obvio que un amigo de un amigo no es padre e hijo, por lo que existe una inconsistencia evidente.

La verificación de inconsistencia implica razonamiento de conocimiento. En términos generales, el razonamiento del conocimiento puede entenderse como "predicción de vínculos", es decir, derivar nuevas relaciones o vínculos a partir de gráficos de relaciones existentes. Por ejemplo, en el ejemplo anterior, si Zhang San y Li Si son amigos, y Zhang San y el prestatario también son amigos, entonces podemos inferir que el prestatario y Li Si también son amigos.

Fraude grupal

En comparación con la identificación de identidades falsas, es más difícil detectar el fraude grupal. Este tipo de organización está oculta en una red de relaciones muy compleja y no es fácil de descubrir. Sólo resolviendo la red oculta de relaciones se pueden analizar y descubrir los riesgos potenciales. Como herramienta de análisis de redes de relaciones naturales, el mapa de conocimiento puede ayudarnos a identificar este riesgo potencial más fácilmente.

Para dar un ejemplo simple, algunos miembros del grupo fraudulento utilizarán identidades falsas para solicitar préstamos, pero parte de la información se * * * * comparte. La siguiente imagen ilustra aproximadamente esta situación. Como se puede ver en la imagen, no existe una relación directa entre Zhang San, Li Si y Wang Wu, pero a través de la red de relaciones, podemos ver fácilmente que los tres comparten cierta información, lo que inmediatamente nos recuerda el riesgo de fraude. Si bien el fraude colectivo se presenta de muchas formas, es seguro que los gráficos de conocimiento proporcionarán métodos de análisis mejores y más convenientes que cualquier otra herramienta.

Detección de anomalías

El análisis de anomalías es un tema importante en el campo de la minería de datos. Simplemente podemos entenderlo como encontrar puntos "anormales" a partir de los datos proporcionados. En nuestra aplicación, estos puntos de "anomalía" pueden estar relacionados con fraude. Dado que el gráfico de conocimiento puede considerarse como un gráfico, la mayor parte del análisis de anomalías del gráfico de conocimiento se basa en la estructura del gráfico. Debido a los diferentes tipos de entidades y tipos de relaciones en el mapa de conocimiento, el análisis de anomalías también debe considerar esta información adicional. El análisis de anomalías basado en gráficos requiere mayoritariamente un uso computacional intensivo, por lo que puede optar por realizar cálculos fuera de línea. En nuestro marco de aplicación, el análisis de anomalías se puede dividir en dos categorías: análisis estático y análisis dinámico, que se analizarán uno por uno más adelante.

-Análisis estático

El llamado análisis estático se refiere a descubrir algunos puntos anormales (como subgrafos anormales) a partir de una estructura gráfica determinada y un determinado momento. En la imagen a continuación, podemos ver claramente que 5 de ellos son muy cercanos entre sí y pueden ser una organización estafadora. Por lo tanto, podemos realizar más análisis de estas estructuras anormales.

-Análisis dinámico

El llamado análisis dinámico se refiere al análisis de la tendencia de su estructura cambiando a lo largo del tiempo. Nuestra suposición es que la estructura del gráfico de conocimiento no cambiará mucho en un corto período de tiempo. Si el cambio es grande, puede haber una anomalía que requiera mayor atención. El análisis de cambios estructurales a lo largo del tiempo implicará tecnología de análisis de series de tiempo y tecnología de cálculo de similitud de gráficos. Los lectores interesados ​​pueden consultar estos materiales.

Gestión de clientes perdidos

Además del control de riesgos antes de prestar, los gráficos de conocimiento también pueden desempeñar un papel importante después de prestar. Por ejemplo, en la gestión de clientes perdidos tras préstamos, el mapa de conocimiento puede ayudarnos a descubrir más contactos nuevos potenciales, mejorando así la tasa de éxito del cobro.

En realidad, muchos prestatarios no reembolsan sus préstamos después del éxito, juegan al escondite y no pueden contactar con ellos mismos. Aunque intenté comunicarme con otros contactos proporcionados por el prestatario, no pude comunicarme conmigo mismo. Esto ha entrado en el estado llamado "contacto perdido" y el personal de recolección no tiene forma de comenzar. Entonces, la siguiente pregunta es, si se pierde el contacto, ¿hay alguna manera de que podamos encontrar la información de contacto del nuevo prestatario? Y este grupo de personas no aparece en nuestro gráfico de conocimiento como contactos relevantes. Si se pueden descubrir más contactos nuevos potenciales, la tasa de éxito de la recopilación mejorará enormemente. Por ejemplo, en la imagen siguiente, el prestatario tiene una relación directa con John Doe, pero no podemos comunicarnos con John Doe. ¿Es posible predecir cuáles de los contactos de John Doe pueden conocer al prestatario mediante el análisis de las relaciones de segundo grado? Esto implica analizar la estructura del mapa.

Búsqueda inteligente y visualización de datos

Basándonos en el gráfico de conocimiento, también podemos proporcionar servicios de búsqueda inteligente y visualización de datos. La función de búsqueda inteligente es similar a la aplicación del gráfico de conocimiento en Google y Baidu. En otras palabras, por cada palabra clave buscada, podemos devolver información más rica y completa a través del gráfico de conocimiento. Por ejemplo, si busca el número de identificación de una persona, nuestro motor de búsqueda inteligente puede devolver todos los registros históricos de préstamos, información de contacto, características de comportamiento, etiquetas (como lista negra, pares, etc.) de cada entidad relacionada con esta persona. Además, los beneficios de la visualización son evidentes. A través de la visualización, la información compleja se presenta de una manera muy intuitiva, lo que nos permite comprender los entresijos de la información oculta de un vistazo.

Marketing de precisión

Michele Goetz, analista principal de Forrester Research, dijo: "Los gráficos de conocimiento le permiten obtener información básica sobre los clientes, incluidos sus nombres, direcciones e información de contacto, y combínalos con Se conecta con otras personas que conocen, cómo interactúan en línea, etc.

Una empresa inteligente puede llegar a los clientes potenciales de manera más eficaz que sus competidores. En la era de Internet, existen muchos métodos de marketing, pero no importa cuántos métodos existan, son inseparables de un núcleo: el análisis de los usuarios. Comprender a los usuarios El gráfico de conocimiento puede combinar varias fuentes de datos para analizar la relación entre entidades, a fin de comprender mejor el comportamiento de los usuarios. Por ejemplo, el gerente de marketing de una empresa utiliza el gráfico de conocimiento para analizar la relación entre los usuarios. relación entre usuarios. Similitudes y diferencias, para formular estrategias de marketing para un determinado grupo de personas. Sólo comprendiendo mejor las necesidades de los usuarios podemos hacer un mejor marketing.

5. p> Aún no existe un gráfico de conocimiento. Se utiliza ampliamente en la industria. Incluso si algunas empresas intentan desarrollarse en esta dirección, muchas todavía se encuentran en la etapa de investigación. La razón principal es que muchas empresas no lo comprenden o no lo comprenden en profundidad. Comprensión de los gráficos de conocimiento. Pero una cosa es segura: los gráficos de conocimiento se utilizarán en los próximos años y se convertirán en una herramienta popular en la industria durante este año. A juzgar por las tendencias actuales, es fácil de predecir. Después de todo, el gráfico de conocimiento es una herramienta relativamente nueva y definitivamente implicará más o menos desafíos en la aplicación práctica.

Ruido de datos

En primer lugar, hay mucho ruido. los datos. Incluso si los datos ya existen en la base de datos, no podemos garantizar su precisión del 100%. En primer lugar, hay dos aspectos: hay errores en los datos y la forma más sencilla de corregirlos es realizar una verificación de inconsistencia fuera de línea. , los datos son redundantes, por ejemplo, el prestatario Zhang San completó el nombre de la empresa "Pu Hui Li Si" el nombre de la empresa "Inclusive Finance" y el prestatario Wang Wu completó el nombre de la empresa "Inclusive Financial Information Services". Co., Ltd." Aunque las tres personas pertenecen a la misma empresa, debido a que completaron nombres diferentes, la computadora pensará que son de diferentes empresas. Entonces, la siguiente pregunta es, ¿cómo encontrar estos nombres ambiguos a partir de datos masivos y ¿Combinarlos en un solo nombre? Esto implica tecnología de "análisis de desambiguación" en el procesamiento del lenguaje natural.

Capacidad de procesamiento de datos no estructurados

En la era del big data, una gran cantidad de datos no se procesa. Datos no estructurados, como texto, imágenes, audio, video, etc., especialmente en la industria financiera de Internet, a menudo nos enfrentamos a una gran cantidad de datos de texto. Cómo extraer información valiosa de estos datos no estructurados es una tarea muy desafiante. plantea desafíos para dominar el aprendizaje automático, la minería de datos y las capacidades de procesamiento del lenguaje natural.

Umbral más alto de razonamiento del conocimiento

La capacidad de razonamiento es una característica importante de la inteligencia humana, que nos permite descubrir lo implícito. conocimiento a partir del conocimiento existente. Necesita el apoyo de algunas reglas. Por ejemplo, los amigos de amigos pueden inferir la relación de amigos, y el padre del padre puede inferir la relación del abuelo. Por ejemplo, muchos de los amigos de Zhang San también son amigos de Li. Si, entonces podemos inferir que es probable que Zhang San y Li Si sean amigos. Por supuesto, aquí existe un problema de probabilidad de cómo combinar eficazmente esta información secundaria con la cantidad de información. El algoritmo de inferencia es el más crítico. Los algoritmos de razonamiento más utilizados incluyen el razonamiento basado en la lógica y el razonamiento basado en representaciones distribuidas. A medida que el aprendizaje profundo se vuelve cada vez más importante en el campo de la inteligencia artificial, el razonamiento basado en métodos de representación distribuida también se ha convertido en un punto de investigación. Si está interesado, puede consultar el avance del trabajo actual en este campo 4, 5, 6 y 7.

Big data, pequeñas muestras y un circuito cerrado ecológico eficaz son las claves.

Aunque la cantidad de datos disponibles ahora es enorme, todavía nos enfrentamos al problema de las muestras pequeñas, es decir, tamaños de muestra pequeños. Supongamos que necesitamos crear un sistema de puntuación antifraude basado en el aprendizaje automático. Primero necesitamos algunas muestras de fraude. Pero, de hecho, la cantidad de muestras falsas que podemos obtener es muy pequeña. Incluso si hay millones de solicitudes de préstamos, las muestras que terminamos etiquetando como fraudulentas probablemente sean sólo decenas de miles. Esto plantea mayores desafíos para el modelado de aprendizaje automático. Conseguimos todas las muestras de fraude a un precio excelente. Con el tiempo, inevitablemente recolectaremos más muestras, pero el margen para el crecimiento de muestras aún es limitado. Esto es diferente de los sistemas tradicionales de aprendizaje automático, como el reconocimiento de imágenes, donde no es difícil obtener cientos de miles o incluso millones de muestras.

En condiciones de muestra tan pequeñas, es particularmente importante construir un circuito cerrado ecológico eficaz. El llamado circuito cerrado ecológico se refiere a la construcción de un sistema de autorretroalimentación eficaz que puede retroalimentar a nuestro modelo en tiempo real, permitiendo que el modelo se optimice continuamente y mejore la precisión. Para establecer este sistema de autoaprendizaje, no solo necesitamos mejorar el sistema de flujo de datos existente, sino también profundizar en cada línea de negocio y optimizar los procesos correspondientes. Este también es un proceso necesario en todo el proceso antifraude. Debes saber que todo el proceso está lleno de juegos. Por eso necesitamos ajustar constantemente nuestra estrategia a través de señales de retroalimentación.

6. Conclusión

El gráfico de conocimiento ha atraído cada vez más atención por parte de la academia y la industria. Además de las aplicaciones mencionadas en este artículo, los mapas de conocimiento también se pueden utilizar en diferentes campos, como la gestión de permisos y la gestión de recursos humanos. Las aplicaciones en esta área se discutirán en detalle en artículos posteriores.

Referencias

1De Abreu, d., Flores, a., Palma, g., Pestana, v., Piñero, j., Queipo, j.... & Vidal , ME (2013). Elija entre bases de datos de gráficos y motores RDF para consumir y extraer datos vinculados. En el frio.

2 Tutorial de comportamiento del usuario

3 Gráfico de conocimiento de Liu Zhiyuan: base de conocimientos en el cerebro de la máquina Capítulo 2 Gráfico de conocimiento: base de conocimientos en el cerebro de la máquina

4 níquel , m, murphy, k, trep, v. Una revisión del aprendizaje automático relacional para gráficos de conocimiento.

5Socher, R, Chen, D, Manning, C. D. Ng, A. (2013). Base de conocimientos de razonamiento completo basado en redes tensoriales neuronales. Avances en los sistemas de procesamiento de información neuronal (págs. 926-934).

6Bordes, A., Usunier, N., García-Durán, A., Weston, J., Jacenko, O. (2013). Traducir incrustaciones para modelado de datos multirelacionales. Avances en los sistemas de procesamiento de información neuronal (págs. 2787-2795).

7Jenaton, R, Lu, N. L., Borders, A. Obozinski, GR (2012). Modelos de factores latentes para datos altamente multirelacionales. Avances en los sistemas de procesamiento de información neuronal (págs. 3167-3175).