Acerca de CódigoMDB

Desarrollador independiente con experiencia en la creación de soluciones web a medida.

Suscríbete & Sígueme

De datos escasos a modelos potentes

Una metodología probada para generar datos sintéticos de alta calidad.

1. Los Datos Sintéticos

Generar datos sintéticos es una solución prometedora para los problemas de escasez y desbalance en Machine Learning. Pero tener las herramientas de generación es solo la mitad de la batalla. La pregunta que muchos investigadores y equipos de datos se hacen es: ¿Cuál es el proceso correcto? ¿Cómo pasamos de un conjunto de datos original y limitado a uno sintético, de alta calidad y que realmente mejore nuestros modelos?

Sin un flujo de trabajo claro, el proceso puede ser caótico. ¿Debemos balancear los datos primero? ¿Qué técnica de generación usamos: una clásica como SMOTE o una más moderna como las GANs? Y lo más importante, ¿cómo tomamos estas decisiones de forma objetiva en cada paso? Faltaba una metodología unificada que sirviera como un mapa de ruta fiable.

2. Nuestra Solución: "Metodologia TDS", una metodología de 4 pasos para la excelencia de datos

Para dar respuesta a este desafío, hemos diseñado y validado una metodología integral para la generación y evaluación de datos sintéticos tabulares. Este framework sistematiza el proceso de principio a fin, asegurando que cada decisión se tome con base en la calidad y la utilidad final de los datos.

Nuestra metodología se estructura en cuatro etapas claras:

  1. Preparación y Calidad: Aseguramos que los datos de partida sean de la máxima calidad, ya que son el cimiento de todo el proceso.
  2. Gestión del Desbalance: Abordamos el desbalance de clases aplicando varias técnicas de sobremuestreo y, crucialmente, seleccionando la mejor de forma objetiva.
  3. Generación de Datos Sintéticos: Creamos datos a gran escala utilizando diferentes enfoques, desde variantes adaptadas de SMOTE hasta modelos de Deep Learning como CTGAN y TVAE.
  4. Evaluación y Selección Guiada: En cada etapa de decisión (pasos 2 y 3), utilizamos nuestro índice de calidad, TabDSFidelity, como una "brújula" para seleccionar el conjunto de datos con la mayor fidelidad y potencial predictivo.

Este enfoque elimina las conjeturas y ofrece un camino estructurado y basado en evidencia para crear datos sintéticos de alto impacto.

3. Transformando Datos de UCI en Modelos Predictivos

Validamos nuestra metodología completa en un escenario exigente: diez conjuntos de datos reales de una Unidad de Cuidados Intensivos (UCI), caracterizados por su escasez y desbalance.

Aplicamos rigurosamente nuestro framework de 4 pasos, utilizando TabDSFidelity para guiar cada elección de técnica. Finalmente, entrenamos modelos de Redes Neuronales para comparar el rendimiento usando los datos originales frente a los datos aumentados con nuestra metodología.

Los resultados validan la potencia del proceso.

El uso de los datos sintéticos generados con nuestra metodología produjo una mejora promedio del +22.35% en el AUC-ROC y del +12.62% en el F1-score. En la práctica, esto significa transformar un modelo con un poder predictivo cercano al azar en una herramienta con utilidad clínica aplicable.

Además, la metodología nos permitió obtener conclusiones valiosas:

  • Una variante de SMOTE adaptada al dominio (SMOTE RSB* Adaptado con Ruido Gaussiano) superó consistentemente a los modelos de Deep Learning en este contexto.
  • No existe una "única técnica de balanceo perfecta"; la mejor opción varía según el conjunto de datos, lo que demuestra la importancia de un proceso de selección guiado como el nuestro.

Esto confirma que nuestra metodología no solo funciona, sino que proporciona un marco robusto para tomar decisiones informadas que conducen a modelos de Inteligencia Artificial más precisos y fiables.

4. Publicación y Estado del Artículo

Este trabajo ha sido aceptado para su publicación en una de las series de actas de congresos más prestigiosas en ciencias de la computación.

AVISO IMPORTANTE

Título del Artículo: A Methodology for the Generation and Evaluation of Tabular Synthetic Data: A Case Study in Data Analysis in Intensive Care Units.

Estado: Este es el Manuscrito Aceptado por el Autor (Author's Accepted Manuscript). Esta versión ha sido aceptada para su publicación tras la revisión por pares, pero no es la versión final maquetada por la editorial (Version of Record) y no refleja las mejoras o correcciones posteriores a la aceptación.

Publicación: Será publicado por Springer en la serie "Lecture Notes in Computer Science" (LNCS).

Una vez publicado, la Versión de Registro oficial estará disponible en SpringerLink. Actualizaremos esta página con el enlace DOI tan pronto como esté disponible. El uso de esta versión aceptada está sujeto a los términos de uso de manuscritos aceptados del editor.

5. ¿Quieres saber más?

Para un análisis detallado de la metodología, incluyendo tablas completas, figuras y pseudocódigo, puedes visitar el sitio web complementario del artículo: Metodologia TDS.

Artículo Siguiente

Sistema UCI