Acerca de CódigoMDB

Desarrollador independiente con experiencia en la creación de soluciones web a medida.

Suscríbete & Sígueme

TabDSFidelity: Un Índice para confiar en los datos sintéticos y potenciar la IA.

Un índice de fidelidad para conocer si los datos sintéticos que generamos artificialmente son realmente buenos.

1. El Dilema de la Calidad en los Datos de IA

En el mundo del Machine Learning, la calidad de los datos lo es todo. A menudo, recurrimos a datos sintéticos para solucionar problemas de escasez, desbalance o privacidad, especialmente en áreas tan críticas como la medicina.

Pero esto nos deja con una pregunta fundamental: ¿Cómo sabemos si los datos que generamos artificialmente son realmente buenos?

Evaluar la calidad de los datos tabulares sintéticos es complejo. Muchas métricas se enfocan en aspectos aislados, como la distribución o las correlaciones, pero falta un método unificado que nos diga si un conjunto de datos sintéticos es verdaderamente "fiel" al original y, lo más importante, si será útil para entrenar un modelo preciso.

2. Nuestra Solución: "TabDSFidelity", un Sello de Garantía Unificado

Para resolver este desafío, hemos desarrollado TabDSFidelity, un novedoso índice de calidad diseñado específicamente para medir la fidelidad de los datos tabulares (tanto sintéticos como balanceados) en tareas de clasificación.

A diferencia de otros enfoques, TabDSFidelity no se limita a una sola métrica. Integra tres dimensiones cruciales de la calidad de los datos en una única puntuación ponderada y adaptable:

  1. Utilidad Predictiva: ¿Qué tan bien funciona un modelo entrenado con estos datos? (Medido con AUC-ROC, F1-Score y Accuracy).
  2. Similitud de Distribución: ¿Se parecen las distribuciones de cada variable a las de los datos originales? (Usando pruebas de Kolmogorov-Smirnov, Divergencia Jensen-Shannon y Divergencia Kullback-Leibler).
  3. Conservación de Correlaciones: ¿Se mantienen las relaciones entre las distintas variables? (Analizando la diferencia entre matrices de correlación).

Al combinar estas dimensiones, el índice ofrece una visión completa y objetiva de la calidad, priorizando aquellos conjuntos de datos que no solo se "parecen" a los originales, sino que son funcionalmente útiles para mejorar el rendimiento de los modelos.

3. Resultados del Mundo Real con Datos de UCI

Pusimos a prueba TabDSFidelity en un escenario de alto impacto: diez conjuntos de datos reales de una Unidad de Cuidados Intensivos (UCI), todos con un fuerte desbalance de clases.

El proceso fue riguroso:

  1. Generamos múltiples versiones de datos balanceados y sintéticos a gran escala.
  2. Utilizamos TabDSFidelity para seleccionar objetivamente la "mejor" versión para cada uno de los diez conjuntos de datos.
  3. Entrenamos cinco tipos de clasificadores distintos (Random Forest, Redes Neuronales, etc.) con los datos originales y con los datos seleccionados por nuestro índice.

Los resultados fueron reveladores.

Los modelos entrenados con los datos de "alta fidelidad" seleccionados por TabDSFidelity superaron drásticamente a los entrenados con los datos originales. El impacto fue especialmente notable en los modelos más complejos:

  • Redes Neuronales: Vimos una mejora de hasta un +84% en el rendimiento (AUC-ROC).
  • Árboles de Decisión: Lograron un rendimiento perfecto (1.0 en AUC, F1 y Accuracy).
  • Correlación Positiva: Demostramos estadísticamente que un mayor puntaje en TabDSFidelity se correlaciona directamente con un mejor rendimiento del modelo en el mundo real (rho ≈ 0.67, p < 0.001).

Esto confirma que TabDSFidelity es una herramienta práctica que identifica y selecciona los datos que realmente potencian la inteligencia artificial.

4. Publicación y Estado del Artículo

Este trabajo ha sido aceptado para su publicación y presentación en un congreso revisado por pares.

AVISO IMPORTANTE

Título del Artículo: An Index for Assessing the Fidelity of Synthetic Tabular Data in Classification Tasks: TabDSFidelity.

Estado: Este es el Manuscrito Aceptado por el Autor (Author's Accepted Manuscript). Esta versión ha sido aceptada para su publicación tras la revisión por pares, pero no es la versión final maquetada por la editorial (Version of Record) y no refleja las mejoras o correcciones posteriores a la aceptación.

Publicación: Publicado como capítulo de libro "Applied Computer Sciences in Engineering. WEA 2025." de la serie de publicaciones académicas de Springer "Communications in Computer and Information Science, vol 2702".

El uso de esta versión aceptada está sujeto a los términos de uso de manuscritos aceptados del editor.

5. ¿Quieres saber más?

Para un análisis detallado, incluyendo todas las tablas, figuras y resultados completos por clasificador, puedes visitar el sitio web complementario del artículo: TabDSFidelity.

Artículo Anterior

Analítica de Autoservicio

Artículo Siguiente

Sistema UCI