Distinción de COVID-19 usando rayos X de tórax

Distinción de COVID-19 usando rayos X de tórax

La velocidad de transmisión de COVID-19 depende de la detección oportuna del portador y de la aplicación inmediata de las intervenciones. Aunque la tomografía computarizada es más sensible a la neumonía por COVID, nuestro enfoque consideró las radiografías de tórax, para una posible clasificación preliminar, debido a su uso frecuente como prueba de diagnóstico primario. Como las técnicas de reducción de dimensiones lineales (como la SVD) no lograron clasificar la Neumonía COVID a partir de las radiografías normales y de CAP, hemos utilizado la Aproximación y Proyección del Múltiple Uniforme (UMAP) para hacer el truco. UMAP utiliza técnicas de aprendizaje de múltiples e ideas del análisis de datos topológicos para la reducción de dimensiones. Usando la UMAP supervisada, hemos sido capaces de separar las 3 clases en el conjunto de datos. Nuestro conjunto de datos actual es limitado, y por lo tanto no es representativo de la gran población positiva de Covid-19. Esperamos remediar eso y usar UMAP como técnica de extracción de características para un clasificador en el futuro. El estudio lo lleva a cabo un equipo de practicantes de aprendizaje automático con el apoyo de expertos en la materia.

Introducción

Varios países se encuentran hoy en día bloqueados debido al número exponencialmente creciente de casos de COVID-19. El único factor que puede contener el virus, aparte del aumento de la higiene y el distanciamiento social, es el diagnóstico temprano para aislar eficazmente a los portadores de la enfermedad.

La limitada disponibilidad de equipos de pruebas virales y el tiempo que requieren estas pruebas hacen que la radiología pase a la vanguardia del diagnóstico. El informe que dan está resultando ser un elemento clave para decidir el tratamiento. La tasa de transmisión de COVID-19 depende de nuestra capacidad para identificar de forma fiable a los pacientes infectados, con un bajo porcentaje de falsos negativos. La detección oportuna de la enfermedad permite la implementación de todos los cuidados de apoyo requeridos por los pacientes afectados, así como el aislamiento para prevenir la propagación.

Un estudio del Departamento de Radiología de Wuhan afirmó que se pueden utilizar «métodos de aprendizaje profundo» para distinguir la COVID-19 de la neumonía adquirida en la comunidad. Utilizando el modelo de la Red de Convolución, Xie et all concluyeron este estudio de 4.356 exámenes de TC con un AUC (Área bajo Curva) de 0,96 para la COVID-19.

Un estudio reciente ha indicado que el CXR comenzó a mostrar signos en 4 días. Aunque las tomografías computarizadas proporcionan puntos de datos más concluyentes con respecto al diagnóstico, la amplia disponibilidad de las radiografías CXR, incluido el hecho de que las radiografías móviles se utilizan comúnmente, nos han convencido de que vale la pena seguir este enfoque de utilizar las radiografías CXR para una posible clasificación preliminar de COVID-19.

Conjunto de datos

Las imágenes de COVID-19 se recogen de varias fuentes, principalmente del conjunto de datos de rayos X del tórax covid. Las imágenes de neumonía no COVID se toman de las imágenes de entrenamiento en el Desafío de Detección de Neumonía RSNA en Kaggle.

La mayoría de las imágenes de radiografía de tórax (CXR) están disponibles en las vistas anteriores del póster (PA). Esta es una radiografía estándar de tórax que se refiere a la dirección del recorrido del haz de rayos X. Se utiliza con frecuencia para ayudar a diagnosticar condiciones agudas y crónicas en los pulmones.

Distinción de COVID-19 usando rayos X de tórax

Aproximación

La intención es clasificar los rayos X en pulmón normal, neumonía y COVID-19. De las siguientes imágenes ( Figura 1 ), podemos ver que las opacidades pulmonares se observaron tanto en las imágenes de COVID como en las imágenes de rayos X de neumonía de pecho.

Las opacidades son nubes vagas y borrosas de color blanco en la oscuridad de los pulmones. Como las diferencias entre la neumonía y los rayos X de COVID-19 eran extremadamente sutiles, se crearon imágenes de alto contraste para que fuera relativamente más fácil de clasificar. Para ello, normalizamos los Rayos X de cada uno de los pacientes restando la media.

Distinción de COVID-19 usando rayos X de tórax

Figura 1: Radiografía de tórax de un paciente con neumonía y COVID-19

Calculamos la media de todas las imágenes de entrenamiento como una representación de todo el conjunto de entrenamiento. La imagen media (Figura 2 – izquierda) representa aproximadamente el tórax y nos dice que todas las imágenes están algo alineadas con el centro y son de tamaños comparables. La desviación estándar de la imagen ( Figura 2 – derecha) ve una mayor varianza y se muestra más blanca.

Distinción de COVID-19 usando rayos X de tórax

Figura 2: El promedio de rayos X

Como las imágenes de rayos X eran muy pocas, el primer enfoque fue utilizar el aprendizaje de transferencia para diferenciar entre los rayos X de neumonía CAP y COVID. La idea no era actualizar los pesos de las capas del modelo, sino aprovechar las capas ponderadas del modelo pre-entrenado para extraer características. Se pretendía utilizar estas características en un clasificador poco profundo como una máquina de vectores de apoyo (SVM) para la clasificación de enfermedades.

Los pesos del modelo Chexnet, una Red Neural de Convolución de 121 capas entrenada en el conjunto de datos de la Radiografía de Tórax 14, detecta y localiza 14 tipos de enfermedades a partir de las imágenes de la Radiografía de Tórax. Los mapas de características fueron extraídos y pasados a través de un clasificador SVM, que alcanzó un AUC de sólo el 50% en el conjunto de pruebas.

Esto sugiere que varias muestras fueron insuficientes y/o la «relación señal-ruido» en estas imágenes fue pobre. El siguiente enfoque que intentamos fue identificar características y marcadores importantes que están asociados con las imágenes de rayos X.

Usando la descomposición de valor singular, disociamos la matriz de datos m × n X de la siguiente manera:

X = USVT

donde,

  • U es una matriz ortonormal m × m cuyas columnas se denominan vectores singulares izquierdos o vectores de coeficiente de X .
  • V es una matriz ortonormal de n × n cuyas columnas se denominan los vectores singulares derechos o los vectores de nivel de expresión de X .
  • Matrix Sigma es una matriz diagonal de m × n. Los elementos diagonales de la matriz S se denominan los valores singulares de X que se utilizan para crear los vectores de los rasgos.

Usando SVD, hemos creado subimágenes. Estos son los rasgos más dominantes de los rayos X.

Distinción de COVID-19 usando rayos X de tórax

Figura 3: Primeros 24 rayos X propios del conjunto de datos

El producto interno de los primeros 3 modos y el vector de imagen completo nos da 3 coordenadas en el espacio vectorial Eigen.

Cuando estos puntos son trazados en este espacio de características de baja dimensión, no observamos ninguna separación distintiva de cúmulos entre COVID, Neumonía y Normal.

Esto indica que los datos no son linealmente separables.

Distinción de COVID-19 usando rayos X de tórax

Figura 4: Diagrama de dispersión de los puntos de datos de Neumonía Normal Vs COVID-19 a través de los 3 primeros componentes

Como el enfoque de Factorización de Matriz (SVD) no estaba dando buenos resultados, el tercer enfoque era tratar de usar la «técnica de gráfico de vecindario», como UMAP, para ver si eso da mejores resultados. UMAP (Uniform Manifold Approximation and Projection) es una técnica desarrollada por McInnes et all. Esta técnica basada en gráficos aprovecha principios matemáticos como la geometría de Riemann y la topología algebraica.

UMAP construye una representación compleja y simple de los datos, y luego los optimiza para el espacio de baja dimensión. Esta es una representación que se acerca lo más posible a la representación topológica utilizando la pérdida de entropía cruzada. Utiliza el descenso de gradiente estocástico para la optimización. La explicación del funcionamiento interno de la UMAP se encuentra en el documento de la UMAP.

Usando las técnicas de UMAP sin supervisión, trazamos las incrustaciones entre varias combinaciones de rayos X normales, de neumonía y COVID19.

Como podemos ver claramente en la figura 5, los cúmulos normales y COVID-19 se diferencian bastante limpiamente, excepto por un par de muestras.

Distinción de COVID-19 usando rayos X de tórax

Figura 5: Representación UMAP no supervisada entre rayos X normales y COVID-19

Incluso en Figura 6 , el límite de clasificación entre la neumonía y la COVID-19 es bastante distinto, con cada una de ellas cayendo en diferentes partes del espectro.

Distinción de COVID-19 usando rayos X de tórax

Figura 6: Representación UMAP no supervisada entre la neumonía y el PNA COVID-19

En Figura 7 , aunque la situación es ligeramente diferente, los cúmulos están bastante difusos y no parece haber un límite claro. Parte de esto podría atribuirse al ruido en el etiquetado de los casos de neumonía, pero no podemos hacer ningún razonamiento claro.

Distinción de COVID-19 usando rayos X de tórax

Figura 7: Representación UMAP no supervisada entre Normal y Neumonía

En el UMAP supervisado, hacemos uso de etiquetas de objetivo al modelo cuando lo ajustamos para realizar una reducción dimensional supervisada. A partir de esta visualización, de las 3 incrustaciones en el diagrama de dispersión, observamos que las clases están limpiamente separadas y aisladas.

Figura 8: Diagrama de dispersión de los puntos de datos de Neumonía Normal Vs COVID-19 a través de las 3 primeras incrustaciones en UMAP Supervisado

Distinción de COVID-19 usando rayos X de tórax

Basándonos en los datos disponibles y en los enfoques que hemos probado, llegamos a la conclusión de que usando la UMAP supervisada y el aprendizaje métrico, somos capaces de separar las imágenes de rayos X de tórax normales, de neumonía y de COVID-19 (vista PA).

Trabajo futuro

La UMAP podría utilizarse como técnica de extracción de características en la tarea de clasificación de enfermedades, utilizando el clasificador. Para que esto sea concluyente, necesitaremos más datos en varias etapas, con las radiografías COVID-19 tomadas cuando los pacientes presentan síntomas severos.

También planeamos desarrollar un módulo de inferencia usando UMAP que puede traducir una muestra de rayos X desconocida usando la representación múltiple aprendida.

La otra línea de pensamiento, que estamos persiguiendo usando imágenes de rayos X, se refiere a la identificación del pronóstico de la enfermedad basado en los datos longitudinales disponibles.

Referencias

  • https://pair-code.github.io/understanding-umap/
  • https://umap-learn.readthedocs.io/en/latest/api.html
  • https://towardsdatascience.com/how-exactly-umap-works13e3040e1668
  • https://pubs.rsna.org/doi/pdf/10.1148/radiol.2020200905
  • https://www.nejm.org/doi/full/10.1056/NEJMoa2001191
  • https://github.com/ieee8023/covid-chestxray-dataset

Leave a Comment!