Clasificación textual con enfásis en clases minoritarias
Ponente(s): Andrea Bethsabe García Gutiérrez, Miguel Ángel Álvarez Carmona, Ángel Ramón Aranda Campos
Resumen
El turismo desempeña un papel fundamental en la economía de México, y la capacidad de detectar problemas y tomar decisiones informadas es esencial en este sector. Los comentarios de los turistas en las redes sociales se han vuelto cada vez más relevantes, ya que representan una valiosa fuente de información para clasificar la polaridad de dichos comentarios, es decir, determinar si son positivos o negativos. Sin embargo, se ha observado que los conjuntos de comentarios turísticos presentan un desequilibrio entre las clases, lo que significa que hay una proporción desigual entre ellas. En este caso, las clases mayoritarias se asocian con comentarios positivos, mientras que las clases minoritarias se asocian con comentarios negativos, los cuales desempeñan un papel crucial en la evaluación de la calidad en el sector turístico.
Este desequilibrio en las clases plantea un desafío para la clasificación, ya que puede afectar el rendimiento de los modelos y generar resultados deficientes. Para abordar este problema, se propone una metodología que combina técnicas de balanceo de datos, incluyendo el submuestreo de las clases mayoritarias y el sobremuestreo de las clases minoritarias. Para el sobremuestreo, se propone un nuevo modelo de lenguaje especializado para generar comentarios sintéticos para las clases negativas utilizando sinónimos y palabras similares basadas en los comentarios de las bases de datos originales. Esta metodología incluye diversos parámetros que permiten generar comentarios sintéticos de alta calidad, como la temperatura y la probabilidad de selección de palabras para mejorar la diversidad.
Para el modelo de lenguaje propuesto se emplearon enfoques basados en embeddings y transformers, que representan el estado del arte en estas tareas. Los resultados obtenidos demostraron la viabilidad y relevancia de esta metodología en el contexto turístico, ya que mejoraron significativamente el rendimiento de los modelos de clasificación al tratar con conjuntos de datos desbalanceados. Por ejemplo, se logró una precisión del 0.85 en la clasificación de comentarios positivos y con los métodos tradicionales se tiene 0 en la clasificación de comentarios negativos y al utilizar la base de datos balanceada obtenida con la metodología propuesta se alcanza una precisión de 0.23.
La aplicación de esta metodología tiene un impacto positivo en la detección de problemas y la toma de decisiones en el sector turístico. Al mejorar la clasificación de los comentarios turísticos, se facilita la detección temprana de áreas problemáticas y se fomenta la adopción de medidas correctivas oportunas. En última instancia, esta metodología contribuye a mejorar la calidad de los servicios turísticos y fortalecer la competitividad de México como destino turístico.