Aplicaciones de la homología persistente en minería de textos

Autor: Jesus Rodriguez Viorato
Un modelo utilizado en la minería de textos es el de redes de co-ocurrencia, dónde términos frecuentes en un corpus de dominio específico se representan por medio de vértices en un grafo y cuyas aristas conectan términos que aparecen en el mismo documento. Una manera novedosa para describir redes de co-ocurrencias en un corpus es mediante el uso de complejos simpliciales, a estos complejos simpliciales se les puede asociar de forma natural una filtración dada por las frecuencias en que grupos de palabras aparecen en distintos textos (weighted rank clique filtration) y en algunos casos tienen además una filtración dada por la fecha de los documentos (temporal filtration). Permitiendo el cálculo de homología persistente en ambos casos. Los ciclos de homología obtenidos describen nuevas relaciones de los términos de la red de co-ocurrencia. Veremos algunos ejemplos de cómo aplicar estas técnicas para identificar grupos de términos que pertenecen a una misma categoría (Betti cero) y así como se pueden interpretar los ciclos (Betti uno) en ciertos contextos.