Modelo de marcas estilísticas en textos mediante Redes Neuronales Artificiales: un enfoque matemático-aplicado

Ponente(s): Eduardo Abraham Díaz Pérez
La atribución de autoría de textos es un problema sin resolver en la filología. Los métodos tradicionales basados en estadísticas léxicas o sintácticas presentan limitaciones para capturar patrones complejos y no lineales en secuencias de texto. En este trabajo, proponemos un modelo basado en redes neuronales recurrentes (LSTM) que combina capas de embeddings aprendidos y mecanismos de dropout para identificar huellas estilísticas únicas en cada autor. El modelo transforma los textos en secuencias de vectores densos mediante una capa de embedding y procesa estas secuencias con una capa de LSTM que aprende dinámicas textuales. La arquitectura del dropout regula las conexiones para evitar sobreajustes debido a que el corpus utilizado es pequeño. Evaluamos el modelo en un corpus de 249 cuentos de Borges, Benedetti y Cortázar. En las pruebas realizadas hasta el momento se ha obtenido una precisión del 80% en la clasificación. Un análisis cualitativo revela que la LSTM captura preferencias léxicas y patrones sintácticos. Este trabajo contribuye a la intersección entre las matemáticas aplicadas y el procesamiento de lenguaje natural. Hasta el momento los resultados son muy prometedores para resolver problemas prácticos de atribución.