Un equipo de investigadores del Biomedical Data Science (BDS) Lab-ITACA de la Universitat Politècnica de València (UPV), junto a miembros del Instituto de Investigación Sanitaria INCLIVA del Hospital Clínico Universitario de Valencia y el Instituto de Investigación del Hospital Universitario 12 de Octubre de Madrid i+12, está desarrollando un sistema de ayuda a la decisión clínica que ofrecerá un pronóstico robusto para cada paciente con COVID-19 en el momento del ingreso.
Se trata de una nueva herramienta basada en técnicas de inteligencia artificial (IA) y aprendizaje automático. Combinando información sobre síntomas, comorbilidades y pruebas de laboratorio, el sistema permite obtener un pronóstico personalizado para cada individuo y clasificarlo según el nivel de gravedad al que pudiera llegar –por ejemplo, si tras varios días, el afectado puede sufrir una insuficiencia respiratoria aguda, circunstancia en la que un tratamiento precoz sería fundamental-.
Uno de los principales desafíos para el aprendizaje automático en el ámbito de la COVID-19 es alcanzar un nivel alto en cuanto a la calidad de los datos, reto al que esta herramienta ayudará a responder.
Según explica Juan Miguel García-Gómez, coordinador del BDSLab-ITACA de la UPV, el aprendizaje automático tiene el potencial de ayudar en esta tarea mediante la aplicación de técnicas de aprendizaje no supervisado y supervisado a los registros de salud electrónicos (EHR, por su sigla en inglés) de los hospitales.
Estas técnicas permiten extraer los patrones más significativos del historial de comorbilidad del paciente, los síntomas y las pruebas de laboratorio en el momento del ingreso, y sus últimos datos de la unidad de cuidados intensivos (UCI), facilitando una estratificación temprana del paciente y la predicción de la posible gravedad de su estado.
Sin embargo, hay fuertes evidencias de que los datos reales (real world data, RWD) contenidos en los EHR de los hospitales están lejos de ser perfectos, lo que limita la extracción de conocimiento tanto por parte de los profesionales médicos como por las máquinas que pueden ayudar al diagnóstico del paciente. Además, la variabilidad inherente a la práctica clínica y la codificación de datos entre los hospitales, o incluso entre sus poblaciones destinatarias, puede sesgar cualquier resultado extraído de los datos.
“Por lo tanto”, señala Carlos Sáez, investigador postdoctoral del BDSLab-ITACA de la UPV, “los métodos de aprendizaje automático e IA requieren una evaluación y explicación de la calidad de los datos (DQ), asociada tanto al aprendizaje como a las nuevas predicciones para garantizar soluciones correctas y pragmáticas, y esto es a lo que contribuye la metodología que hemos ideado, que será empleada por primera vez en esta herramienta”.
El equipo de la UPV, junto con expertos del INCLIVA y del Instituto de Investigación del Hospital Universitario 12 de Octubre de Madrid i+12, trabaja en este desarrollo en el marco del Proyecto SUBCOVERWD-19.
Rafael Badenes, doctor del Grupo de Investigación en Anestesia de INCLIVA, asegura que, desde un punto de vista clínico, el contar con herramientas de IA que sean capaces de predecir, en fases tempranas de la enfermedad, cuál va a ser el devenir de la misma, constituye un elemento crucial en la lucha contra la enfermedad. “En aquellos casos en los que se prevé mayor gravedad, podríamos instaurar tratamientos de manera más precoz, con el objetivo final de reducir la mortalidad y los ingresos en UCI", añade el Dr. Badenes, jefe de sección de Anestesia del Hospital Clínico y Universitario de Valencia y profesor de la Universitat de València.
“La heterogeneidad y complejidad de la COVID19”, añade el Dr. Agustín Gómez de la Cámara, jefe de la Unidad de Investigación y Soporte Científico del Hospital 12 de Octubre, “hace imprescindible el uso de técnicas muy avanzadas y sofisticadas de análisis, con el fin de poder identificar los patrones clínicos y epidemiológicos, todavía muy desconocidos en esta enfermedad. Creemos que este proyecto puede contribuir a lograr este objetivo”.
Este proyecto, coordinado por Carlos Sáez, investigador de la UPV, ha sido uno de los seleccionados en la convocatoria del FONDO SUPERA COVID-19, impulsada por Crue Universidades Españolas, Banco Santander -a través de Santander Universidades-, y el Consejo Superior de Investigaciones Científicas (CSIC).
“La calidad de los datos es crítica”, indica Sáez. “Especialmente, en los entornos de compartición de datos en múltiples sitios, la variabilidad entre las fuentes de datos es una posible fuente de sesgos inesperados en el aprendizaje de modelos y su posterior utilización”, afirma el coordinador del proyecto.
En este sentido, con el fin de descubrir y clasificar los subgrupos de severidad de COVID-19 utilizando el conjunto de datos nCov2019, recientemente publicado en la revista Scientific Data, el equipo del BDSLab-Itaca de la UPV ha descubierto que los dos países con mayor prevalencia en tales datos (China y Filipinas), se dividieron en subgrupos separados con manifestaciones de gravedad distintas.
“La variabilidad de las fuentes de datos puede conllevar potenciales sesgos para el proceso de aprendizaje automático de COVID-19, así como para la generalización de sus resultados en nuevos pacientes y localizaciones. Es crucial tener la variabilidad y calidad de datos en cuenta para una IA robusta y confiable”, concluye Sáez.
Tanto este trabajo como sus resultados han sido recogidos en la nueva herramienta COVID-19 Subgroup Discovery and Exploration Tool.
Noticias destacadas