Menos es más: Selección óptima de características con ALNS para clasificación
Ponente(s): Pamela Jocelyn Palomo Martínez, Amanda Flores Barrios-Bobadilla, Leonardo González Elizondo, Valeria Garza Barrón, Víctor Alejandro Saucedo González, Martha Selene Casas Ramírez
La alta dimensionalidad en las bases de datos representa un desafío en el análisis de datos y el aprendizaje automático, en particular, en tareas de clasificación. Un exceso de características incrementa los costos computacionales y de almacenamiento y puede generar sobreajuste, comprometiendo la capacidad de generalización de los modelos. El problema de selección de características, utilizado para mitigar estos efectos, consiste en identificar y retener solamente las variables más relevantes para la construcción de los modelos.
Este trabajo propone un algoritmo basado en Adaptive Large Neighborhood Search (ALNS) para resolver el problema de selección de características, el cual opera mediante un proceso iterativo de destrucción y reparación, ajustando dinámicamente su estrategia de búsqueda según el rendimiento de clasificación. El objetivo es maximizar la exactitud de la clasificación y minimizar el número de características seleccionadas.
El algoritmo, implementado en Python y evaluado con K-Nearest Neighbors, fue probado en 20 bases de datos diversas. Los resultados revelan un rendimiento superior de ALNS frente a técnicas tradicionales como Feature Importance, lo que lo posiciona como un método robusto y prometedor.