Red de Respuestas Legales - Conocimientos legales - ¿Cómo construir un gráfico de conocimiento de la industria?

¿Cómo construir un gráfico de conocimiento de la industria?

Los componentes básicos de un mapa de conocimiento son tres elementos: entidades, atributos y relaciones. triplete entidad-relación-entidad; triplete entidad-atributo-valor de atributo. Actualmente, los gráficos de conocimiento se dividen en dos categorías. Uno es un gráfico de conocimiento en campos abiertos y el otro es un gráfico de conocimiento en campos verticales. Por ejemplo, el gráfico de conocimiento de Google para motores de búsqueda pertenece al dominio abierto. Gráfico de conocimiento vertical, como finanzas, comercio electrónico, etc.

Lo primero es procesar los datos. Los datos en Internet son básicamente estructurados, no estructurados y semiestructurados. Los datos estructurados son generalmente datos comerciales de una empresa. Estos datos se almacenan en la base de datos, se extraen de la biblioteca y se pueden utilizar realizando un preprocesamiento simple. Los datos semiestructurados y los datos no estructurados, como la descripción o el título del producto, pueden ser un párrafo de texto o una imagen, que son datos no estructurados. Pero almacena cierta información y refleja algunos atributos en el gráfico de conocimiento. Por lo tanto, es necesario extraerlo, lo cual es una tarea laboriosa y que requiere mucho tiempo para construir un gráfico de conocimiento.

Lo que hay que extraer de los datos son en realidad las entidades, atributos y relaciones mencionadas anteriormente. La extracción de entidades en el procesamiento del lenguaje natural se denomina reconocimiento de entidades nombradas. Las tecnologías relevantes aquí son relativamente maduras, desde el método tradicional de reglas de diccionario artificial hasta el método actual de aprendizaje automático, el aprendizaje profundo también tiene algunos usos. Por ejemplo, de un texto extraemos la entidad Bill Gates y la entidad Microsoft, y luego extraemos una relación. Bill Gates es el fundador de Microsoft, por lo que habrá dicha correspondencia. También existe la extracción de atributos, como que la nacionalidad de Bill Gates es Estados Unidos. Una vez completadas estas extracciones, hay información dispersa y luego, antes de agregarla, lo obtenido de la información estructurada se combina con la información obtenida de la base de conocimiento de terceros.

Además, necesitamos alinear y desambiguar las entidades.

Acerca de la alineación de entidades. Por ejemplo, Bill Gates es su nombre chino y Bill Gates es su nombre en inglés, pero en realidad estas dos palabras se refieren a la misma persona. Como el texto es diferente, hay dos entidades al principio. Esto requiere que lo alineemos y unifiquemos.

La otra es la desambiguación de entidades. Por ejemplo, manzana es una fruta, pero en algunos contextos puede referirse a manzanas. Esta es una ambigüedad de entidad y debemos eliminarla según el contexto.

Después de completar los pasos anteriores, el siguiente paso es extraer la ontología. Por ejemplo, las mencionadas Microsoft y Apple son empresas. No pueden estar sacados directamente del texto, son empresas. Entonces se necesita algún método para extraerlo. Luego cree una biblioteca de ontologías, por ejemplo, una empresa es una institución y tiene esta relación. Para personas de la misma edad, también deben considerarse conocidos. Por ejemplo, Bill Gates y Steve Jobs son similares a nivel físico. Todos ellos son entidades humanas. Son muy diferentes a la empresa, por lo que requieren un cálculo de similitud.

Una vez completados los pasos anteriores, es necesario evaluar la calidad de la base de conocimientos, lo cual es un paso manual inevitable. Después de la evaluación de calidad, finalmente se forma un gráfico de conocimiento. Una vez formado el gráfico de conocimiento, es posible que algunas relaciones no se obtengan directamente. En este caso, se requiere razonamiento de conocimiento y el gráfico de conocimiento se puede expandir. Por ejemplo, un gato es un gato. Los gatos son mamíferos. Se puede inferir que los gatos son mamíferos. Pero este razonamiento no puede derivarse de manera casual. Por ejemplo, Bill Gates es estadounidense. Bill Gates fundó una empresa, pero esa empresa no era necesariamente estadounidense.