¿Cuál es el formato de archivo de léxico del método de entrada de Baidu?
Sogou Cell Thesaurus adopta el formato scel y utiliza Unicode para codificar caracteres chinos y pinyin. El contenido de todo el formato scel incluye: información de encabezado, introducción de vocabulario, lista de combinación de pinyin y lista de entradas. La estructura de datos de entrada en formato scel está bien diseñada. Utiliza punteros pinyin para evitar contenido pinyin repetido en las entradas y también combina homófonos para ahorrar espacio.
El tesauro de clasificación QQ adopta el formato qpyd y originalmente usaba zip para comprimir la lista de entradas. El contenido del formato qpyd incluye: información del título, introducción al vocabulario y lista de entradas comprimida. Debido a que el formato qpyd usa compresión zip, el archivo completo aparecerá más pequeño que los sinónimos en otros formatos con la misma cantidad de entradas. Sin embargo, a diferencia del formato scel de Sogou, en el formato qpyd, cada entrada corresponde a su pinyin. Las palabras están codificadas en UTF8, pero el pinyin está codificado en Unicode.