Caso de Éxito: Datos Sintéticos para Predecir la Mortalidad en Pacientes con Neumonía Grave de la Comunidad.
1. Resumen General
Este informe detalla los resultados de la aplicación de la metodología (Metodología TDS) avanzada para la generación y evaluación de datos sintéticos a un conjunto de datos sobre Neumonía Grave Adquirida en la Comunidad. El objetivo principal fue superar las limitaciones del conjunto de datos original, caracterizado por un significativo desbalance de clases (Ratio de 2.37). La metodología fue robustecida con la inclusión de la métrica "Gamma" de la Teoría de Conjuntos Aproximados, para una evaluación más profunda de la calidad y fidelidad estructural de los datos generados.
Los resultados demuestran un éxito rotundo en dos áreas clave:
- Calidad de los datos: Se generaron conjuntos de datos balanceados, sintéticos y aumentados de alta calidad. La técnica basada en SMOTE RSB*, "SMOTE RSB* Adaptado Con Reglas del Dominio" fue identificada como la mejor para el balanceo, mientras que "SMOTE RSB* con Ruido Gaussiano + Reglas del Dominio" demostró ser superior para la generación de datos a gran escala.
- Rendimiento Predictivo: Los modelos de clasificación, especialmente los Bosques Aleatorios (Random Forests), entrenados con los conjuntos de datos aumentados, mostraron una mejora consistente en métricas clave como AUC-ROC y F1-Score en comparación con los entrenados únicamente con datos originales.
Estos hallazgos no solo validan la eficacia de la metodología, sino que también abren nuevas y significativas oportunidades para la investigación y el desarrollo de herramientas de apoyo a la decisión clínica más precisas y fiables.
2. Análisis de Calidad de los Conjuntos de Datos Generados
La primera fase del experimento se centró en generar y seleccionar los conjuntos de datos de mayor calidad utilizando el índice de evaluación TabDSFidelity que ahora incluye la métrica "Gamma".
2.1. Selección del Mejor Conjunto de Datos Balanceado
El conjunto de datos original presentaba un desbalance considerable. Se evaluaron múltiples técnicas de sobremuestreo, y los resultados fueron:
- Técnica Superior: SMOTE RSB* Adaptado Con Reglas del Dominio.
- Justificación: Esta técnica no solo logró un excelente equilibrio de clases (Ratio ~1.18), sino que también obtuvo puntuaciones más altas en métricas de utilidad predictiva (AUC, F1) y fidelidad estadística respecto a su referente original y al resto de los candidatos balanceados. De manera crucial, su "Fidelidad Gamma" de 1 y un alto valor de "Consistencia Gamma" (0.996) indican que preservó de manera excepcional la estructura de conocimiento y las dependencias del conjunto de datos original, minimizando la incertidumbre introducida, un factor clave para la generación de modelos robustos.
Tabla 1. Comparativa de Técnicas de Balanceo de Datos y Métricas de Evaluación.
| Ratio | Dataset | No. Ejemplos | AUC-ROC | F1 | Accuracy | Consistencia Gamma Dataset | Fidelidad Consistencia Gamma | Kolmogorov-Smirnov | Jensen-Shanon | Kullback-Leibler | Puntuación TabDSFidelity | ¿Es el mejor? |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 2.36885 | 75% del conjunto original | 411 | 0.706682 | 0.714266 | 0.751825 | 0.990268 | --- | --- | --- | --- | 5.82103 | NO |
| 1 | Random OverSampling | 578 | 0.749873 | 0.690974 | 0.722628 | 0.984429 | 0.994104 | 2.5098 | 3.67276 | 2.98768 | 7.69593 | NO |
| 1 | SMOTE | 578 | 0.724212 | 0.755984 | 0.766423 | 0.991349 | 1 | 2.7873 | 3.58113 | 2.91239 | 4.19444 | NO |
| 1 | BorderLine SMOTE | 578 | 0.691819 | 0.670321 | 0.686131 | 0.99308 | 1 | 2.90349 | 3.5927 | 2.9179 | 5.56624 | NO |
| 1.00346 | ADASYN | 579 | 0.708333 | 0.698086 | 0.708029 | 0.993092 | 1 | 3.2314 | 3.57823 | 2.93571 | 5.56624 | NO |
| 1.18443 | SMOTE RSB* Adaptado | 533 | 0.71405 | 0.737852 | 0.751825 | 0.992495 | 1 | 3.59187 | 3.64369 | 2.97369 | 7.68562 | NO |
| 1.18443 | SMOTE RSB* Adaptado Con Reglas del Dominio | 533 | 0.740346 | 0.746991 | 0.759124 | 0.996248 | 1 | 3.43465 | 3.64335 | 2.96681 | 8.25911 | SÍ |
| 1 | Optimización por Enjambre de Partículas | 578 | 0.729421 | 0.686034 | 0.722628 | 0.99308 | 1 | 0.00043104 | 2.93066 | 2.81882 | 2.74024 | NO |
2.2. Selección de los Mejores Conjuntos Sintéticos y Aumentados
A partir del conjunto balanceado óptimo, se generaron 10,000 nuevas muestras sintéticas.
- Técnica Superior: SMOTE RSB* Con Ruido Gaussiano + Reglas del Dominio.
- Justificación: Tanto en su versión puramente sintética como en la aumentada (combinando datos originales y sintéticos), este método superó a alternativas como CTGAN y TVAE. Mantuvo un alto rendimiento en todas las métricas de evaluación, incluyendo una Fidelidad Gamma de 1, lo que confirma que los datos generados son de alta calidad, estructuralmente coherentes y listos para ser utilizados en el entrenamiento de modelos de aprendizaje automático.
Tabla 2. Comparativa de Datasets Sintéticos y Aumentados con sus Métricas de Evaluación.
| Tipo | Equilibrio | Ratio | Dataset | No. Ejemplos | AUC-ROC | F1 | Accuracy | Consistencia Gamma Dataset | Fidelidad Consistencia Gamma | Kolmogorov-Smirnov | Jensen-Shanon | Kullback-Leibler | Puntuación TabDSFidelity | ¿Es el mejor? |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Sintético | Balanceado | 1.16497 | SMOTE RSB* Con Ruido Gaussiano | 10000 | 0.73158 | 0.683868 | 0.708029 | 0.9991 | 1 | 2.16366 | 3.38051 | 2.80374 | 7.3567 | NO |
| Sintético | Balanceado | 1.33318 | CTGAN | 10000 | 0.635417 | 0.679484 | 0.708029 | 1 | 1 | 0.000000373606 | 2.77446 | 2.79583 | 5.22048 | NO |
| Sintético | Desbalanceado | 1.7571 | TVAE | 10000 | 0.592353 | 0.62616 | 0.635036 | 0.9992 | 1 | 0.0001404 | 2.59638 | 1.74348 | 3.00291 | NO |
| Sintético | Balanceado | 1.17439 | SMOTE RSB* Con Ruido Gaussiano + Reglas del Dominio | 10000 | 0.722688 | 0.725482 | 0.737226 | 0.9968 | 1 | 2.0659 | 3.38003 | 2.80462 | 7.89581 | SÍ |
| Sintético | Balanceado | 1 | Optimización por Enjambre de Partículas | 10000 | 0.578252 | 0.584393 | 0.569343 | 1 | 1 | 0 | 1.52435 | 1.14109 | 0 | NO |
| Aumentado | Balanceado | 1.16595 | SMOTE RSB* Con Ruido Gaussiano | 10533 | 0.708714 | 0.679729 | 0.693431 | 0.9991 | 1 | 2.19617 | 3.39329 | 2.81567 | 6.83963 | NO |
| Aumentado | Balanceado | 1.32517 | CTGAN | 10533 | 0.577871 | 0.607512 | 0.620438 | 1 | 1 | 0.00000165075 | 2.82018 | 2.81165 | 2.52144 | NO |
| Aumentado | Desbalanceado | 1.721 | TVAE | 10533 | 0.609502 | 0.623533 | 0.627737 | 0.9992 | 1 | 0.000328698 | 2.66818 | 2.20163 | 2.56623 | NO |
| Aumentado | Balanceado | 1.17489 | SMOTE RSB* Con Ruido Gaussiano + Reglas del Dominio | 10533 | 0.732978 | 0.716323 | 0.729927 | 0.9968 | 1 | 2.09698 | 3.39291 | 2.81668 | 7.95461 | SÍ |
| Aumentado | Balanceado | 1.00858 | Optimización por Enjambre de Partículas | 10533 | 0.680513 | 0.664234 | 0.664234 | 1 | 1 | 0 | 1.67258 | 1.45706 | 1.98305 | NO |
3. Impacto en la Efectividad Predictiva de los Modelos de Clasificación
El valor final de los datos generados se mide por su capacidad para mejorar el rendimiento de los modelos predictivos. Los resultados de esta fase son muy alentadores.
Tabla 3. Análisis comparativo de la evolución del rendimiento con diferentes tipos de datos.
| Tipo de Datos | Mejor Algoritmo | AUC-ROC (Mejora vs. Original) | F1-Score (Mejora vs. Original) |
|---|---|---|---|
| Original | Bosques Aleatorios | 0.703 | 0.698 |
| Balanceado | Bosques Aleatorios | 0.718 (+2.1%) | 0.760 (+8.9%) |
| Sintético | Bosques Aleatorios | 0.721 (+2.6%) | 0.707 (+1.3%) |
| Aumentado | Bosques Aleatorios | 0.724 (+3.0%) | 0.695 (-0.4%) |
Observaciones Clave:
- Superioridad del Aumento de Datos: El conjunto de datos aumentado (augmented), que combina la información real con la riqueza de los datos sintéticos, produjo el mejor modelo global en términos de AUC-ROC, la métrica más importante para evaluar la capacidad de discriminación de un clasificador. El modelo de Bosques Aleatorios alcanzó un AUC de 0.724, una mejora significativa sobre el 0.703 del modelo original.
- Mejora Generalizada: Si bien Bosques Aleatorios fue el algoritmo más destacado, es notable que otros modelos como la Máquina de Vector de Soporte (SVM) y la Red Neuronal mostraron mejoras aún más drásticas en su rendimiento al ser entrenados con datos sintéticos y aumentados, pasando de ser modelos débiles a competentes. Esto demuestra que los datos generados son robustos y benefician a una amplia gama de algoritmos.
- Impacto del Balanceo: El uso del conjunto balanceado por sí solo ya proporciona una mejora sustancial, especialmente en el F1-Score, lo que indica una mejor capacidad para identificar correctamente la clase minoritaria.
Tabla 4. Rendimiento Comparativo de Algoritmos de Clasificación por Tipo de Datos.
| Tipo | Algoritmo | AUC-ROC | F1 | Accuracy |
|---|---|---|---|---|
| Original | Regresión Logística | 0.524136 | 0.608416 | 0.656934 |
| Original | Árbol de Decisión | 0.597053 | 0.636449 | 0.664234 |
| Original | Bosques Aleatorios | 0.702744 | 0.697567 | 0.744526 |
| Original | Máquina de Vector de Soporte | 0.575711 | 0.590277 | 0.70073 |
| Original | Red Neuronal de Clasificación | 0.429878 | 0.585014 | 0.671533 |
| Balanceado | Regresión Logística | 0.514482 | 0.571988 | 0.562044 |
| Balanceado | Árbol de Decisión | 0.6828 | 0.67658 | 0.671533 |
| Balanceado | Bosques Aleatorios | 0.717734 | 0.759581 | 0.773723 |
| Balanceado | Máquina de Vector de Soporte | 0.552846 | 0.61143 | 0.59854 |
| Balanceado | Red Neuronal de Clasificación | 0.544715 | 0.591241 | 0.591241 |
| Sintético | Regresión Logística | 0.535315 | 0.561587 | 0.554745 |
| Sintético | Árbol de Decisión | 0.623094 | 0.653059 | 0.656934 |
| Sintético | Bosques Aleatorios | 0.72091 | 0.707011 | 0.722628 |
| Sintético | Máquina de Vector de Soporte | 0.649136 | 0.666464 | 0.664234 |
| Sintético | Red Neuronal de Clasificación | 0.661077 | 0.671857 | 0.664234 |
| Aumentado | Regresión Logística | 0.533028 | 0.561587 | 0.554745 |
| Aumentado | Árbol de Decisión | 0.615219 | 0.658103 | 0.656934 |
| Aumentado | Bosques Aleatorios | 0.723831 | 0.69498 | 0.708029 |
| Aumentado | Máquina de Vector de Soporte | 0.652947 | 0.666464 | 0.664234 |
| Aumentado | Red Neuronal de Clasificación | 0.644055 | 0.676473 | 0.678832 |
4. Oportunidades y Vías de Acción
Los resultados de este experimento abren un abanico de oportunidades estratégicas para la investigación en el campo de la medicina intensiva:
-
Desarrollo de Modelos Predictivos de Alta Precisión:
- Oportunidad: Existe una clara posibilidad de construir modelos de pronóstico para la neumonía grave con una capacidad predictiva superior. Un modelo con un AUC de 0.724 es significativamente más útil en un entorno clínico que uno con un rendimiento cercano a 0.70.
- Acción: Utilizar el conjunto de datos aumentado como el nuevo estándar para entrenar y validar modelos de clasificación para esta patología.
-
Exploración de Arquitecturas de Aprendizaje Profundo:
- Oportunidad: La escasez de datos suele ser el principal impedimento para usar modelos complejos como las redes neuronales profundas. Con un conjunto de datos robusto y de gran tamaño (más de 10,000 ejemplos), ahora es factible experimentar con arquitecturas más avanzadas que antes eran inviables por el alto riesgo de sobreajuste.
- Acción: Iniciar una nueva fase de experimentación centrada en modelos de Deep Learning para buscar mejoras adicionales en la precisión predictiva.
-
Investigación Clínica y Análisis de Subgrupos:
- Oportunidad: El conjunto de datos aumentado, al ser más grande y diverso, permite un análisis más fiable de subpoblaciones de pacientes que en el conjunto original eran demasiado pequeñas para obtener conclusiones estadísticamente significativas.
- Acción: Realizar estudios de análisis exploratorio sobre el conjunto de datos aumentado para identificar nuevos patrones de riesgo o perfiles de pacientes que puedan guiar la investigación clínica futura.
5. Conclusión
Este estudio ha demostrado de manera concluyente que la metodología de generación de datos sintéticos, guiada por un riguroso proceso de evaluación que ahora incluye la Teoría de Conjuntos Aproximados, es una herramienta poderosa y eficaz. El conjunto de datos aumentado no solo resuelve el problema del desbalance de clases, sino que enriquece la base de conocimiento disponible, permitiendo el entrenamiento de modelos de aprendizaje automático más precisos y robustos. Los resultados positivos abren la puerta a avances significativos en el modelado predictivo para la neumonía grave, con el potencial de mejorar la toma de decisiones clínicas y, en última instancia, el cuidado del paciente.
