Red de Respuestas Legales - Directorio de abogados - ¿Cuál es el formato de archivo de léxico del método de entrada de Baidu?

¿Cuál es el formato de archivo de léxico del método de entrada de Baidu?

El archivo de léxico del método de entrada de Baidu está en formato BDictit, que es relativamente simple. Los contenidos de todo el formato BDictit son: información de encabezado, introducción de vocabulario y lista de entradas. Los caracteres chinos en las entradas están codificados en Unicode.

Sogou Cell Thesaurus adopta el formato scel y utiliza Unicode para codificar caracteres chinos y pinyin. El contenido de todo el formato scel incluye: información de encabezado, introducción de vocabulario, lista de combinación de pinyin y lista de entradas. La estructura de datos de entrada en formato scel está bien diseñada. Utiliza punteros pinyin para evitar contenido pinyin repetido en las entradas y también combina homófonos para ahorrar espacio.

El tesauro de clasificación QQ adopta el formato qpyd y originalmente usaba zip para comprimir la lista de entradas. El contenido del formato qpyd incluye: información del título, introducción al vocabulario y lista de entradas comprimida. Debido a que el formato qpyd usa compresión zip, el archivo completo aparecerá más pequeño que los sinónimos en otros formatos con la misma cantidad de entradas. Sin embargo, a diferencia del formato scel de Sogou, en el formato qpyd, cada entrada corresponde a su pinyin. Las palabras están codificadas en UTF8, pero el pinyin está codificado en Unicode.