Cálculo de similitud de texto basado en Gensim
Un corpus es un conjunto de textos sin procesar que se utilizan para entrenar sin supervisión la estructura oculta de los temas del texto. No es necesario etiquetar manualmente información adicional en el corpus. En Gensim, un corpus suele ser un objeto iterable (como una lista). Cada iteración devuelve un vector disperso que puede usarse para expresar objetos de texto.
Un vector es una lista de características de texto. Es la representación interna de un texto en Gensim.
Un diccionario es una colección de todas las palabras de todos los documentos, registrando el número de veces que aparece cada palabra y otra información. ?
Modelo es un término abstracto. Se define una transformación de dos espacios vectoriales (es decir, de una representación vectorial de texto a otra).
Utilice un experimento para comprender:
# -*-Codificación: UTF-8 -*-?
Importar corpus, similitud, modelo de gensim
Importar Jieba
classGensimExp(object):
def__init__(self, documentos, test_document , Tipo, feature_num, best_num):
self.raw_documents = Documentos
self testDocuments = documentos de prueba
Self. SimCalType = tipo
self.num_features = feature_num
self.num_best =mejor número
defCalSim(self):
corpora_documents = [ ]
#Segmentación de palabras
para item _ textin self . raw _ documentos:
item _ seg = list(jieba . cut(item _ text))
corpora_documents.append
#Generar diccionario y corpus
Diccionario = corpus. Diccionario (corpus_document)
#Calcular la flecha correspondiente a cada noticia.
corpus =[diccionario . doc 2 arco(texto)para incorporación de texto _ documentos]#iterador
if self. tipo simcal == ' Similitud-tfi df-index ':
#¿El valor IDF de cada característica en el corpus estadístico?
tfidf_model = modelo. TfidfModel(corpus)
Corpus_tfi df = tfi df_model[corpus]
Self. _similitud = similitud. similitud (yo.
SimCalType, corpus_tfidf,\
num_features=self.num_features, num_best=self.num_best)
test _ cut _ raw = list(jieba . cut(self . test _ document))
test _ corpus = diccionario . doc 2 bow(test _ cut _ raw)
#Genere el valor IF-IDF según el modelo entrenado y luego calcule la similitud.
Yo mismo. _ prueba _ corpus = tfi df _ model[prueba _ corpus]
elifself. SimCalType == ' Índice-LSI de similitud ':
lsi_model = modelo. LsiModel(corpus)
Corpus_LSI = LSI_model[corpus]
Self. _similitud = similitud. similitud(self. SimCalType, corpus_lsi, \
num_features=self.num_features, num_best=self.num_best)
test_cut_raw = list(jieba . cut(self . test _ document))
test_corpus=diccionario .doc 2 arco(test_cut_raw)
self. _ prueba _ corpus = LSI _ modelo[prueba _ corpus]
self. printout()
defPrint_Out(self):
string = 'El material más similar es'
fortplinrange(len(self._similarity[self ._test_corpus] )):
iftpl! = len(self._similarity[self._test_corpus]) -1:
cadena = cadena str(self._similarity[self._test_corpus][tpl][0]) \
p>'(' str(self._similarity[self._test_corpus][tpl][1]) '),'
De lo contrario:
string = char String str(self. _similaridad[self._test_corpus][tpl][0]) \
'(' str(self._similarity[self._test_corpus][tpl][1]) ')'
Print (string)
if__name__=='__main__ ':
raw_documents = [
0 1 19, CITIC Group y Tencent firmaron un acuerdo marco estratégico en Shenzhen, anunciando que promoverán la cooperación empresarial en la nube, big data, blockchain, inteligencia artificial y otros campos técnicos, y explorarán activamente el camino hacia la transformación digital y la mejora de la industria real. ,
1 El Banco de Desarrollo de Shanghai Pudong anunció que la sucursal de Chengdu de la compañía recibió una multa de 462 millones de yuanes por parte de la Comisión Reguladora Bancaria de China por negocios crediticios ilegales y otras violaciones. El monto total de la multa se incluyó en la declaración de 2017 de la compañía. pérdidas y ganancias, lo que tiene un impacto negativo en el desarrollo empresarial y las operaciones sostenibles de la empresa. No hay efectos adversos significativos.
,
2 El Banco de Desarrollo de Shanghai Pudong fue multado con 462 millones de yuanes en respuesta a la violación de la sucursal de Chengdu del Banco de Desarrollo de Shanghai Pudong: Se supo por la oficina central del Banco de Desarrollo de Shanghai Pudong que el Banco de Desarrollo de Shanghai Pudong está profundamente avergonzado por la caso de la emisión ilegal de préstamos por parte de la sucursal de Chengdu, apoyamos y aceptamos firmemente la investigación de las autoridades reguladoras y utilizaremos esto como un estímulo para fortalecer su propia gestión, adherirse a una gobernanza estricta y considerar siempre las operaciones legales y conformes como la base para futuros negocios; desarrollo. (Cai Yi)',
3. Su Cha anunció: 65.438 0.332.000 acciones emitidas antes de la oferta pública inicial de la empresa se levantarán el 24 de junio, lo que representa el 65% del capital social total de la empresa. las acciones en circulación reales el día del levantamiento de la prohibición eran 65.438 0, 226, 5438 0,5 millones de acciones, lo que representa el 9,73 del capital social total. Los accionistas que solicitaron levantar la restricción a la venta de acciones esta vez son Suzhou Testing Instrument General Factory y cuatro accionistas personas físicas, incluidos Zhong Qionghua, Wu y Chen Ying. ",
Se informa que una subsidiaria de Boston Scientific y Sinopharm Holdings participó en la oferta por Lumenis, subsidiaria de XIO.,
5 Suning Shangyun respondió a la carta de consulta de la Bolsa de Valores de Shenzhen: 2065438 En julio de 2007, el Instituto de Investigación Financiera Suning estableció oficialmente un laboratorio de blockchain para llevar a cabo investigaciones sobre la tecnología blockchain y su aplicación en la industria financiera, con el objetivo de utilizar la tecnología blockchain para proporcionar soporte técnico a Suning Jinfu y Suning Bank. El sistema nacional de transmisión de información de cartas de crédito adopta un modelo de cadena de consorcio, que solo se utiliza de forma gratuita entre los bancos del consorcio y no proporciona servicios directos al mundo exterior.
Malong Sanitation indicó que el anuncio inicial de la empresa. La oferta pública de acciones restringidas por valor de 65 mil millones de RMB se pondrá en circulación el 26 de junio, en la que participarán 654,38 07 accionistas, incluidos los directores, supervisores y altos ejecutivos actuales Zhang Guifeng,
Aerospace Engineering Se hizo un anuncio en el. 7. La oferta pública inicial de 324 millones de acciones restringidas de la compañía se cotizará y circulará el 29 de junio. Los accionistas involucrados son la Academia China de Tecnología de Vehículos de Lanzamiento, Aerospace Investment Holdings Co., Ltd., el Instituto de Investigación de Energía Aeroespacial de Beijing y Beijing Aerospace.
Daqian Ecology anunció que el consorcio formado por la empresa y Jiangsu Daqian Design Institute Co., Ltd. ganó la licitación. para la ciudad de Dongba, distrito de Gaochun, se espera que el proyecto de contratación general de EPC invierta aproximadamente 65.438 millones de yuanes. La implementación fluida del proyecto tendrá un impacto positivo en el desempeño operativo de la compañía este año. , 1954, el Presidium del Soviético Supremo de la Unión Soviética Con motivo del "300 aniversario de la alianza fraternal entre Ucrania y Rusia", se aprobó una resolución para transferir la Región de Crimea de la Federación Rusa a la República de Ucrania. .
El 10 de octubre, Jiyou Shares anunció que se espera que el beneficio neto de la compañía en 2017 sea mayor que el del mismo período del año pasado, que aumentó en aproximadamente 42,5 millones de yuanes a 53 millones de yuanes, con un aumento de aproximadamente 80,49. -100,37 yuanes. El beneficio en el mismo período del año pasado fue de 52,8038 millones de yuanes, lo que aumentó más que el período anterior. El beneficio operativo aumentó más que el período anterior. Se recibieron subsidios y gestión financiera. y las pérdidas en el beneficio neto de la empresa son de aproximadamente 32 millones de yuanes.
11 Qianshan Yaoji: Las acciones pignoradas del principal accionista cayeron por debajo de la línea de liquidación, Liu Xianghua, uno de los accionistas y controladores reales, posee un total de 32 millones de yuanes. 14,83% de las acciones de la empresa Actualmente, Liu Xianghua ha prometido el 13,78% de las acciones de la empresa. La empresa está aceptando posiciones de valores y futuros por parte del Comité de Supervisión de Asuntos. Según las normas pertinentes, los principales accionistas de la empresa no pueden hacerlo. reducir sus tenencias (incluidas las promesas de acciones y las liquidaciones). Por lo tanto, las acciones prometidas por Liu Xianghua esta vez caerán por debajo de la línea de liquidación y no conducirán al control real de la empresa.
12 Tianma. Fine Chemical: la subsidiaria planea controlar Zhongke Electronics por más de 100 millones de yuanes y fortalecer la estrategia de desarrollo de la gestión de la cadena de suministro,
Anuncio '13 Chaohua Technology'. Recientemente, recibimos una notificación de un empleado de nuestra filial Bellsun, informando que Bellsun no ha podido ponerse en contacto con su presidente Zheng Changchun en un futuro próximo. Hasta el momento, la empresa no ha podido ponerse en contacto con Zheng Changchun, presidente de Belxin.
Después de conversaciones con los principales accionistas de Belsign y la aprobación de la junta directiva de Belsign, la dirección actual de Belsign formará un grupo de trabajo temporal para mantener el orden normal de producción y funcionamiento de Belsign. La empresa llevó a cabo una verificación exhaustiva de Bell Letter para salvaguardar los intereses de las empresas que cotizan en bolsa y de los accionistas. ",
Según el anuncio de Hongsheng Technology '14, se espera que la compañía obtenga una ganancia de 280 millones de yuanes a 290 millones de yuanes en 2017, un aumento interanual de 20,65 a 24,96 yuanes. y una ganancia de 232 millones de yuanes en el mismo período del año pasado.' Durante el período del informe, la compañía estima que el impacto de las ganancias y pérdidas no recurrentes en la ganancia neta es de aproximadamente 654,38 millones de yuanes - 65438,03 millones de yuanes.
Xudong Optoelectronics anunció el día 15 que los empleados del accionista mayoritario Xudong Group han crecido en total y Ying Plan ha completado la compra de 11,1 millones de acciones de la empresa, lo que representa el 0,2 del capital social total. El monto total de la transacción es de aproximadamente 1,02. millones de yuanes y el precio medio de la transacción es de aproximadamente 9655.
obj 1 = gensim exp(raw_documents,'digital transformation update path','simility-tfidf-index',600,5).karsim()
Obj2 = GensimExp(raw_documents,'Procesamiento ilegal de negocios crediticios', 'similitud-tfidf-index', 600, 3).
Obj3 = GensimExp(raw_documents, 'Los ingresos de este período han aumentado en comparación con el período anterior', 'similitud-LSI-índice' ', 400, 2) Kalsim()
Resultados experimentales:
Porque el corpus no es grande y la cantidad de textos similares devueltos es pequeña, pero se puede ver que el juicio es correcto (PD: las palabras vacías no se procesan durante la segmentación de palabras)
Referencia:
/gensim/tutorial.html