Aprendizaje no supervisado en conjuntos de datos masivos

Autor: Edgar Leonel Chávez González
Coautor(es): Marco A. Chacón Inowe
Los datos no etiquetados sobrepasan a los datos etiquetados en tareas de aprendizaje dada la enorme facilidad para obtener datos y la relativa dificultad en asociarlos a una etiqueta. Una manera de trabajar con estos datos consiste en detectar agrupamientos, cúmulos o clusters en esos conjuntos de datos. La detección de estos cúmulos es un proceso iterativo que requiere de probar diferentes parámetros de los algoritmos hasta encontrar alguna combinación que produzca resultados en línea con alguna intuición de quien busca el agrupamiento. Este proceso es especialmente lento en conjuntos de datos grandes, dado la complejidad de los algoritmos. En esta charla presentaremos un nuevo algoritmo de agrupamiento, con muy pocos parámetros, que supera el estado del arte en medidas estándar de calidad del agrupamiento, en velocidad y en uso de memoria.