Código MDB || Caso de Éxito: Inteligencia Artificial y Datos Sintéticos para Predecir la Mortalidad en Pacientes con Neumonía Grave de la Comunidad

Caso de Éxito: Datos Sintéticos para Predecir la Mortalidad en Pacientes con Neumonía Grave de la Comunidad.

1. Resumen General

Este informe detalla los resultados de la aplicación de la metodología (Metodología TDS) avanzada para la generación y evaluación de datos sintéticos a un conjunto de datos sobre Neumonía Grave Adquirida en la Comunidad. El objetivo principal fue superar las limitaciones del conjunto de datos original, caracterizado por un significativo desbalance de clases (Ratio de 2.37). La metodología fue robustecida con la inclusión de la métrica "Gamma" de la Teoría de Conjuntos Aproximados, para una evaluación más profunda de la calidad y fidelidad estructural de los datos generados.

Los resultados demuestran un éxito rotundo en dos áreas clave:

Calidad de los datos: Se generaron conjuntos de datos balanceados, sintéticos y aumentados de alta calidad. La técnica basada en SMOTE RSB*, "SMOTE RSB* Adaptado Con Reglas del Dominio" fue identificada como la mejor para el balanceo, mientras que "SMOTE RSB* con Ruido Gaussiano + Reglas del Dominio" demostró ser superior para la generación de datos a gran escala.
Rendimiento Predictivo: Los modelos de clasificación, especialmente los Bosques Aleatorios (Random Forests), entrenados con los conjuntos de datos aumentados, mostraron una mejora consistente en métricas clave como AUC-ROC y F1-Score en comparación con los entrenados únicamente con datos originales.

Estos hallazgos no solo validan la eficacia de la metodología, sino que también abren nuevas y significativas oportunidades para la investigación y el desarrollo de herramientas de apoyo a la decisión clínica más precisas y fiables.

2. Análisis de Calidad de los Conjuntos de Datos Generados

La primera fase del experimento se centró en generar y seleccionar los conjuntos de datos de mayor calidad utilizando el índice de evaluación TabDSFidelity que ahora incluye la métrica "Gamma".

2.1. Selección del Mejor Conjunto de Datos Balanceado

El conjunto de datos original presentaba un desbalance considerable. Se evaluaron múltiples técnicas de sobremuestreo, y los resultados fueron:

Técnica Superior: SMOTE RSB* Adaptado Con Reglas del Dominio.
Justificación: Esta técnica no solo logró un excelente equilibrio de clases (Ratio ~1.18), sino que también obtuvo puntuaciones más altas en métricas de utilidad predictiva (AUC, F1) y fidelidad estadística respecto a su referente original y al resto de los candidatos balanceados. De manera crucial, su "Fidelidad Gamma" de 1 y un alto valor de "Consistencia Gamma" (0.996) indican que preservó de manera excepcional la estructura de conocimiento y las dependencias del conjunto de datos original, minimizando la incertidumbre introducida, un factor clave para la generación de modelos robustos.

Tabla 1. Comparativa de Técnicas de Balanceo de Datos y Métricas de Evaluación.

Ratio	Dataset	No. Ejemplos	AUC-ROC	F1	Accuracy	Consistencia Gamma Dataset	Fidelidad Consistencia Gamma	Kolmogorov-Smirnov	Jensen-Shanon	Kullback-Leibler	Puntuación TabDSFidelity	¿Es el mejor?
2.36885	75% del conjunto original	411	0.706682	0.714266	0.751825	0.990268	---	---	---	---	5.82103	NO
1	Random OverSampling	578	0.749873	0.690974	0.722628	0.984429	0.994104	2.5098	3.67276	2.98768	7.69593	NO
1	SMOTE	578	0.724212	0.755984	0.766423	0.991349	1	2.7873	3.58113	2.91239	4.19444	NO
1	BorderLine SMOTE	578	0.691819	0.670321	0.686131	0.99308	1	2.90349	3.5927	2.9179	5.56624	NO
1.00346	ADASYN	579	0.708333	0.698086	0.708029	0.993092	1	3.2314	3.57823	2.93571	5.56624	NO
1.18443	SMOTE RSB* Adaptado	533	0.71405	0.737852	0.751825	0.992495	1	3.59187	3.64369	2.97369	7.68562	NO
1.18443	SMOTE RSB* Adaptado Con Reglas del Dominio	533	0.740346	0.746991	0.759124	0.996248	1	3.43465	3.64335	2.96681	8.25911	SÍ
1	Optimización por Enjambre de Partículas	578	0.729421	0.686034	0.722628	0.99308	1	0.00043104	2.93066	2.81882	2.74024	NO

2.2. Selección de los Mejores Conjuntos Sintéticos y Aumentados

A partir del conjunto balanceado óptimo, se generaron 10,000 nuevas muestras sintéticas.

Técnica Superior: SMOTE RSB* Con Ruido Gaussiano + Reglas del Dominio.
Justificación: Tanto en su versión puramente sintética como en la aumentada (combinando datos originales y sintéticos), este método superó a alternativas como CTGAN y TVAE. Mantuvo un alto rendimiento en todas las métricas de evaluación, incluyendo una Fidelidad Gamma de 1, lo que confirma que los datos generados son de alta calidad, estructuralmente coherentes y listos para ser utilizados en el entrenamiento de modelos de aprendizaje automático.

Tabla 2. Comparativa de Datasets Sintéticos y Aumentados con sus Métricas de Evaluación.

Tipo	Equilibrio	Ratio	Dataset	No. Ejemplos	AUC-ROC	F1	Accuracy	Consistencia Gamma Dataset	Fidelidad Consistencia Gamma	Kolmogorov-Smirnov	Jensen-Shanon	Kullback-Leibler	Puntuación TabDSFidelity	¿Es el mejor?
Sintético	Balanceado	1.16497	SMOTE RSB* Con Ruido Gaussiano	10000	0.73158	0.683868	0.708029	0.9991	1	2.16366	3.38051	2.80374	7.3567	NO
Sintético	Balanceado	1.33318	CTGAN	10000	0.635417	0.679484	0.708029	1	1	0.000000373606	2.77446	2.79583	5.22048	NO
Sintético	Desbalanceado	1.7571	TVAE	10000	0.592353	0.62616	0.635036	0.9992	1	0.0001404	2.59638	1.74348	3.00291	NO
Sintético	Balanceado	1.17439	SMOTE RSB* Con Ruido Gaussiano + Reglas del Dominio	10000	0.722688	0.725482	0.737226	0.9968	1	2.0659	3.38003	2.80462	7.89581	SÍ
Sintético	Balanceado	1	Optimización por Enjambre de Partículas	10000	0.578252	0.584393	0.569343	1	1	0	1.52435	1.14109	0	NO
Aumentado	Balanceado	1.16595	SMOTE RSB* Con Ruido Gaussiano	10533	0.708714	0.679729	0.693431	0.9991	1	2.19617	3.39329	2.81567	6.83963	NO
Aumentado	Balanceado	1.32517	CTGAN	10533	0.577871	0.607512	0.620438	1	1	0.00000165075	2.82018	2.81165	2.52144	NO
Aumentado	Desbalanceado	1.721	TVAE	10533	0.609502	0.623533	0.627737	0.9992	1	0.000328698	2.66818	2.20163	2.56623	NO
Aumentado	Balanceado	1.17489	SMOTE RSB* Con Ruido Gaussiano + Reglas del Dominio	10533	0.732978	0.716323	0.729927	0.9968	1	2.09698	3.39291	2.81668	7.95461	SÍ
Aumentado	Balanceado	1.00858	Optimización por Enjambre de Partículas	10533	0.680513	0.664234	0.664234	1	1	0	1.67258	1.45706	1.98305	NO

3. Impacto en la Efectividad Predictiva de los Modelos de Clasificación

El valor final de los datos generados se mide por su capacidad para mejorar el rendimiento de los modelos predictivos. Los resultados de esta fase son muy alentadores.

Tabla 3. Análisis comparativo de la evolución del rendimiento con diferentes tipos de datos.

Tipo de Datos	Mejor Algoritmo	AUC-ROC (Mejora vs. Original)	F1-Score (Mejora vs. Original)
Original	Bosques Aleatorios	0.703	0.698
Balanceado	Bosques Aleatorios	0.718 (+2.1%)	0.760 (+8.9%)
Sintético	Bosques Aleatorios	0.721 (+2.6%)	0.707 (+1.3%)
Aumentado	Bosques Aleatorios	0.724 (+3.0%)	0.695 (-0.4%)

Observaciones Clave:

Superioridad del Aumento de Datos: El conjunto de datos aumentado (augmented), que combina la información real con la riqueza de los datos sintéticos, produjo el mejor modelo global en términos de AUC-ROC, la métrica más importante para evaluar la capacidad de discriminación de un clasificador. El modelo de Bosques Aleatorios alcanzó un AUC de 0.724, una mejora significativa sobre el 0.703 del modelo original.
Mejora Generalizada: Si bien Bosques Aleatorios fue el algoritmo más destacado, es notable que otros modelos como la Máquina de Vector de Soporte (SVM) y la Red Neuronal mostraron mejoras aún más drásticas en su rendimiento al ser entrenados con datos sintéticos y aumentados, pasando de ser modelos débiles a competentes. Esto demuestra que los datos generados son robustos y benefician a una amplia gama de algoritmos.
Impacto del Balanceo: El uso del conjunto balanceado por sí solo ya proporciona una mejora sustancial, especialmente en el F1-Score, lo que indica una mejor capacidad para identificar correctamente la clase minoritaria.

Tabla 4. Rendimiento Comparativo de Algoritmos de Clasificación por Tipo de Datos.

Tipo	Algoritmo	AUC-ROC	F1	Accuracy
Original	Regresión Logística	0.524136	0.608416	0.656934
Original	Árbol de Decisión	0.597053	0.636449	0.664234
Original	Bosques Aleatorios	0.702744	0.697567	0.744526
Original	Máquina de Vector de Soporte	0.575711	0.590277	0.70073
Original	Red Neuronal de Clasificación	0.429878	0.585014	0.671533
Balanceado	Regresión Logística	0.514482	0.571988	0.562044
Balanceado	Árbol de Decisión	0.6828	0.67658	0.671533
Balanceado	Bosques Aleatorios	0.717734	0.759581	0.773723
Balanceado	Máquina de Vector de Soporte	0.552846	0.61143	0.59854
Balanceado	Red Neuronal de Clasificación	0.544715	0.591241	0.591241
Sintético	Regresión Logística	0.535315	0.561587	0.554745
Sintético	Árbol de Decisión	0.623094	0.653059	0.656934
Sintético	Bosques Aleatorios	0.72091	0.707011	0.722628
Sintético	Máquina de Vector de Soporte	0.649136	0.666464	0.664234
Sintético	Red Neuronal de Clasificación	0.661077	0.671857	0.664234
Aumentado	Regresión Logística	0.533028	0.561587	0.554745
Aumentado	Árbol de Decisión	0.615219	0.658103	0.656934
Aumentado	Bosques Aleatorios	0.723831	0.69498	0.708029
Aumentado	Máquina de Vector de Soporte	0.652947	0.666464	0.664234
Aumentado	Red Neuronal de Clasificación	0.644055	0.676473	0.678832

4. Oportunidades y Vías de Acción

Los resultados de este experimento abren un abanico de oportunidades estratégicas para la investigación en el campo de la medicina intensiva:

Desarrollo de Modelos Predictivos de Alta Precisión:
- Oportunidad: Existe una clara posibilidad de construir modelos de pronóstico para la neumonía grave con una capacidad predictiva superior. Un modelo con un AUC de 0.724 es significativamente más útil en un entorno clínico que uno con un rendimiento cercano a 0.70.
- Acción: Utilizar el conjunto de datos aumentado como el nuevo estándar para entrenar y validar modelos de clasificación para esta patología.
Exploración de Arquitecturas de Aprendizaje Profundo:
- Oportunidad: La escasez de datos suele ser el principal impedimento para usar modelos complejos como las redes neuronales profundas. Con un conjunto de datos robusto y de gran tamaño (más de 10,000 ejemplos), ahora es factible experimentar con arquitecturas más avanzadas que antes eran inviables por el alto riesgo de sobreajuste.
- Acción: Iniciar una nueva fase de experimentación centrada en modelos de Deep Learning para buscar mejoras adicionales en la precisión predictiva.
Investigación Clínica y Análisis de Subgrupos:
- Oportunidad: El conjunto de datos aumentado, al ser más grande y diverso, permite un análisis más fiable de subpoblaciones de pacientes que en el conjunto original eran demasiado pequeñas para obtener conclusiones estadísticamente significativas.
- Acción: Realizar estudios de análisis exploratorio sobre el conjunto de datos aumentado para identificar nuevos patrones de riesgo o perfiles de pacientes que puedan guiar la investigación clínica futura.

5. Conclusión

Este estudio ha demostrado de manera concluyente que la metodología de generación de datos sintéticos, guiada por un riguroso proceso de evaluación que ahora incluye la Teoría de Conjuntos Aproximados, es una herramienta poderosa y eficaz. El conjunto de datos aumentado no solo resuelve el problema del desbalance de clases, sino que enriquece la base de conocimiento disponible, permitiendo el entrenamiento de modelos de aprendizaje automático más precisos y robustos. Los resultados positivos abren la puerta a avances significativos en el modelado predictivo para la neumonía grave, con el potencial de mejorar la toma de decisiones clínicas y, en última instancia, el cuidado del paciente.

Investigación Anterior

TabDSFidelity

Investigación Siguiente

Acerca de CódigoMDB

Información de Contacto

Caso de Éxito: Datos Sintéticos para Predecir la Mortalidad en Pacientes con Neumonía Grave de la Comunidad.

Autores de la Investigación

TabDSFidelity

XAI Neumonía grave de la comunidad

Acerca de CódigoMDB

Información de Contacto

Suscríbete & Sígueme

Datos Sintéticos para Predecir la Mortalidad en Pacientes con Neumonía Grave de la Comunidad

Caso de Éxito: Datos Sintéticos para Predecir la Mortalidad en Pacientes con Neumonía Grave de la Comunidad.

Autores de la Investigación

TabDSFidelity

XAI Neumonía grave de la comunidad