Recibido: 17 marzo 2020
Aceptado: 10 octubre 2020
Disponible: 13 noviembre 2020
La resonancia magnética funcional en estado de reposo (rs-fMRI) es una de las técnicas más relevantes en exploración cerebral. No obstante, la misma es susceptible a muchos factores externos que pueden ocluir la señal de interés. En este orden de ideas, las imágenes rs-fMRI han sido estudiadas desde diferentes enfoques, existiendo un especial interés en las técnicas de eliminación de artefactos a través del Análisis de Componentes Independientes (ICA por sus siglas en inglés). El enfoque es una herramienta poderosa para la separación ciega de fuentes donde es posible eliminar los elementos asociados a ruido. Sin embargo, dicha eliminación está sujeta a la identificación o clasificación de las componentes entregadas por ICA. En ese sentido, esta investigación se centró en encontrar una estrategia alternativa para la clasificación de las componentes independientes. El problema se abordó en dos etapas. En la primera de ellas, se redujeron las componentes (volúmenes 3D) a imágenes mediante el Análisis de Componentes Principales (PCA por sus siglas en inglés) y con la obtención de los planos medios. Los métodos lograron una reducción de hasta dos órdenes de magnitud en peso de los datos y, además, demostraron conservar las características espaciales de las componentes independientes. En la segunda etapa, se usaron las reducciones para entrenar seis modelos de redes neuronales convolucionales. Las redes analizadas alcanzaron precisiones alrededor de 98 % en la clasificación e incluso se encontró una red con una precisión del 98.82 %, lo cual refleja la alta capacidad de discriminación de las redes neuronales convolucionales.
Palabras clave: Análisis de Componentes Independientes, Análisis de Componentes Principales, Redes Neuronales Convolucionales, reducción de ruido en fMRI, estado de reposo.
Resting state functional magnetic resonance imaging (rs-fMRI) is one of the most relevant techniques in brain exploration. However, it is susceptible to many external factors that can occlude the signal of interest. In this order of ideas, rs-fMRI images have been studied adopting different approaches, with a particular interest in artifact removal techniques through Independent Component Analysis (ICA). Such an approach is a powerful tool for blind source separation, where elements associated with noise can be eliminated. Nevertheless, such removal is subject to the identification or classification of the components provided by the ICA. In that sense, this study focuses on finding an alternative strategy to classify the independent components. The problem was addressed in two stages. In the first one, the components (3D volumes) were reduced to images by Principal Component Analysis (PCA) and by obtaining the median planes. The methods achieved a reduction of up to two orders of magnitude in the weight of the data size, and they were shown to preserve the spatial characteristics of the independent components. In the second stage, the reductions were used to train six models of convolutional neural networks. The networks analyzed in this study reached accuracies around 98 % in classification, one of them even up to 98.82 %, which reflects the high discrimination capacity of convolutional neural networks.
Keywords: Independent Component Analysis, Principal Component Analysis, Convolutional Neural Network, denoising in fMRI, resting-state.
La neurociencia es un campo científico que se ha abordado desde diferentes perspectivas, no solo con el fin de comprender e interpretar la complejidad del cerebro humano, sino también las fisiopatologías que lo afectan [
Adicionalmente, el enfoque hacia el paradigma en estado de reposo, conocido como resonancia magnética funcional en estado de reposo (rs-fMRI), ha generado buenos resultados en cuanto a detección de circuitos neuronales, como es el caso de la red de modo defecto [
Asimismo, la detección de circuitos neuronales ha permitido encontrar y estudiar las diferencias funcionales en patologías tan complejas como el Alzheimer o el Parkinson [
La fMRI, y por lo tanto la rs-fMRI, se genera a partir del cambios espontáneos en el nivel de oxigenación en la sangre, conocida como señal BOLD (Blood Oxygen Level Dependent) [
Esta señal es una medida indirecta de la actividad neuronal, sin embargo, la fMRI logra captar cambios o ruido de otros procesos que pueden ser de origen fisiológico, instrumental, aleatorio y de movimiento [
Las características espaciales y temporales de las componentes independientes, permiten discriminarlas entre señal neuronal o ruido, dando paso a una posterior eliminación de los elementos asociados al ruido
La clasificación ha impulsado estrategias automáticas como ICA-AROMA [21] o ICA-FIX [
Por otro lado, las redes neuronales convolucionales y el aprendizaje profundo son algunos de los temas de mayor crecimiento en informática médica [
Además, las aplicaciones más comunes han superado las técnicas convencionales de aprendizaje de máquina en áreas como: reconocimiento de patrones, detección, visión por computadora y clasificación [
En este sentido, son claras las ventajas manifestadas por el aprendizaje profundo [
Partiendo de las anteriores consideraciones, este estudio tiene dos enfoques principales. El primero de ellos está orientado a buscar la mejor forma de representar las componentes independientes. Este problema se aborda con algunas técnicas ya existentes, como la reducción de dimensiones mediante el análisis de componentes principales (PCA) [
En la Figura 2 se proporciona una descripción general de la estrategia seguida. En el proceso se usó una base de datos de acceso público, la cual cuenta con el preprocesamiento mínimo [
2.1 Componentes independientes
Se usó la base de datos pública del proyecto ICA-FIX. El conjunto se basa en 6 grupos de imágenes rs-fMRI obtenidas de los proyectos Human Connectome Project [
La clasificación fue realizada por los expertos de ICA-FIX [
Grupo | Tiempo de repetición (s) | Puntos de tiempo | Número de sujetos | Tamaño de voxel | Número de Componentes | Clasificación | |
Señal | Ruido | ||||||
Whii_MB6 | 1.3 | 460 | 25 | 2x2x2 | 3346 | 360 | 2986 |
Whii_MB6 | 1.3 | 1000 | 13 | 2x2x2 | 1797 | 435 | 1362 |
Whii_Standard | 3.0 | 200 | 45 | 3x3x3 | 3205 | 422 | 2783 |
Standard | 3.0 | 145 | 40 | 3.5x3.5x3.5 | 1678 | 883 | 795 |
Standard | 3.0 | 180 | 9 | 3.5x3.5x3.5 | 329 | 161 | 168 |
Standard | 3.0 | 200 | 56 | 3.5x3.5x3.5 | 3596 | 570 | 3026 |
Cabe resaltar que, aunque la descomposición por ICA genera mapas espaciales y series de tiempos, en este proceso solo se incluyeron los mapas espaciales. Por lo tanto, los métodos descritos a continuación se aplicaron únicamente a estos conjuntos de componentes 3D.
Además, los datos pueden ser descargados directamente de la página oficial en el siguiente enlace (https://www.fmrib.ox.ac.uk/datasets/FIX-training/).
2.2 Reducción de volúmenes
Los volúmenes de las componentes se redujeron a imágenes mediante el análisis de componentes principales (PCA) y tomando los cortes medios. Los métodos se describen con detalle a continuación.
Método 1- Reducción de volúmenes por PCA: Se implementó el análisis de componentes principales para obtener tres imágenes equivalentes a los cortes axial, coronal y sagital. La imagen axial se generó dividiendo el volumen en cortes axiales como se muestra en la Figura 3. Cada corte se consideró como una matriz de observaciones con `p×q` variables, donde `p` y `q` y son los tamaños del volumen en los ejes coronal y sagital respectivamente.
Posteriormente, cada matriz se almacenó en un vector `X_i` correspondiente al i-ésimo corte con dimensiones equivalentes a las dimensiones `p∙q` (ver Figura 3).
Con estos vectores es posible encontrar las componentes principales, considerando que estas se generan como una combinación lineal de los k vectores originales, es decir, la primera componente principal es equivalente a (1):
Donde `u_11` hasta `u_1k` son escalares que se calculan a partir de la máxima varianza de `z_1`.
Las componentes principales subsecuentes se definen de manera similar. Sin embargo, los coeficientes `u` se calculan a partir de la máxima varianza y considerando que cada una debe tener covarianza cero con la anterior componente [
En (1) se puede ver que las componentes principales tienen las mismas dimensiones de los vectores `X_i` Por lo tanto, a cada componente se les puede aplicar el proceso inverso ilustrado en la Figura 3. El proceso genera matrices de tamaño `p×q` y las tres primeras componentes principales se almacenan en los canales RGB para generar la imagen estándar de 8 bits (ver Figura 4 (b). Las imágenes de los cortes coronal y sagital se generan de la misma manera, sin embargo, las matrices de observaciones se toman como los cortes consecutivos a lo largo de sus respectivos ejes como se ilustra en la Figura 4 (c) y (e), obteniéndose imágenes similares a las ilustradas en la Figura 4 (d) y (f).
Método 2 – Reducción de volúmenes en tres cortes perpendiculares: cada volumen se redujo a tres imágenes correspondientes a los cortes medios en los planos axial, coronal y sagital.
La Figura 5 muestra una ilustración de los planos tomados en cada volumen. Adicionalmente, a las imágenes se les realizó un ajuste en los niveles de gris mediante la modificación del histograma. Se ajustó la intensidad tomando 2 como el mínimo y 22 como el máximo, es decir, los niveles entre 2 a 22 se ajustaron proporcionalmente a una escala de 0 a 255 para generar la imagen de 8 bits.
La reducción se realizó sobre la plataforma Colab de Google, utilizando el lenguaje de programación Python. Además, se usaron principalmente las librerías de Nibabel, Numpy y Opencv.
2.3 Diseño de las redes neuronales convolucionales
Debido a la versatilidad y flexibilidad de las redes, se optó por diseñar seis redes neuronales convolucionales crecientes [
-Función de pérdida de sparse categorical crossentropy.
-Optimizador Adam basado en un gradiente de primer orden estocástico.
-Regularizaron mediante la técnica de deserción de neuronas o dropout.
-Función de activación softmax en la capa de salida.
Haciendo uso de una función lambda, las imágenes se normalizan a la entrada de las redes. Posteriormente, se agregaron las capas convolucionales en combinación con las de submuestreo. Las salidas de las convolucionales se aplanaron, se pasaron a la estructura de capas densa y se redujeron gradualmente hasta la capa de dos salidas (clasificador binario). Las redes difieren en el número de capas convolucionales, la cantidad de filtros, el número de capas densas y el número de perceptrones. En la Tabla 2 se muestra detalladamente las estructuras de los modelos. Cabe señalar que el último modelo tiene la estructura de la red LeNet-5 [
Modelo 1 | |||||
Arquitectura | Función | Filtros o perceptrones | Tamaño de filtro | Función de activación | Deserción (Dropout) |
Función Lambda | Lambda | - | - | - | - |
Convolucional | Conv2D | 16 | (3, 3) | elu | 0.4 |
Convolucional | Conv2D | 16 | (3, 3) | elu | - |
Submuestreo | MaxPooling2D | - | (2, 2) | - | - |
Aplanar | Aplanar | - | - | - | - |
Capa densa | Dense | 16 | - | relu | 0.4 |
Capa densa | Dense | 8 | - | relu | 0.4 |
Capa densa | Dense | 4 | - | relu | 0.4 |
Capa de salida | Dense | 2 | - | softmax | - |
Parámetros de entrenamiento* 261.014 | |||||
Modelo 2 | |||||
Arquitectura | Función | Filtros o perceptrones | Tamaño de filtro | Función de activación | Deserción (Dropout) |
Función Lambda | Lambda | - | - | - | - |
Convolucional | Conv2D | 32 | (3, 3) | elu | - |
Submuestreo | MaxPooling2D | - | (2, 2) | - | 0.4 |
Aplanar | Aplanar | - | - | - | - |
Capa densa | Dense | 128 | - | relu | 0.4 |
Capa de salida | Dense | 2 | - | softmax | - |
Parámetros de entrenamiento* 4.130.050 | |||||
Modelo 3 | |||||
Arquitectura | Función | Filtros o perceptrones | Tamaño de filtro | Función de activación | Deserción (Dropout) |
Función Lambda | Lambda | - | - | - | - |
Convolucional | Conv2D | 32 | (3, 3) | elu | - |
Submuestreo | MaxPooling2D | - | (2, 2) | - | 0.4 |
Convolucional | Conv2D | 64 | (3, 3) | elu | - |
Submuestreo | MaxPooling2D | - | (2, 2) | - | 0.4 |
Aplanar | Aplanar | - | - | - | - |
Capa densa | Dense | 128 | - | relu | 0.4 |
Capa de salida | Dense | 2 | - | softmax | - |
Parámetros de entrenamiento* 2.084.162 | |||||
Modelo 4 | |||||
Arquitectura | Función | Filtros o perceptrones | Tamaño de filtro | Función de activación | Deserción (Dropout) |
Función Lambda | Lambda | - | - | - | - |
Convolucional | Conv2D | 32 | (3, 3) | elu | - |
Submuestreo | MaxPooling2D | - | (2, 2) | - | 0.4 |
Convolucional | Conv2D | 64 | (3, 3) | elu | - |
Submuestreo | MaxPooling2D | - | (2, 2) | - | 0.4 |
Convolucional | Conv2D | 128 | (3, 3) | elu | - |
Submuestreo | MaxPooling2D | - | (2, 2) | - | 0.4 |
Aplanar | Aplanar | - | - | - | - |
Capa densa | Dense | 128 | - | relu | 0.4 |
Capa de salida | Dense | 2 | - | softmax | - |
Parámetros de entrenamiento* 1.125.826 | |||||
Modelo 5 | |||||
Arquitectura | Función | Filtros o perceptrones | Tamaño de filtro | Función de activación | Deserción (Dropout) |
Función Lambda | Lambda | - | - | - | - |
Convolucional | Conv2D | 32 | (3, 3) | elu | - |
Submuestreo | MaxPooling2D | - | (2, 2) | - | 0.4 |
Convolucional | Conv2D | 32 | (3, 3) | elu | - |
Submuestreo | MaxPooling2D | - | (2, 2) | - | 0.4 |
Convolucional | Conv2D | 64 | (3, 3) | elu | - |
Submuestreo | MaxPooling2D | - | (2, 2) | - | 0.4 |
Convolucional | Conv2D | 128 | (3, 3) | elu | - |
Submuestreo | MaxPooling2D | - | (2, 2) | - | 0.4 |
Aplanar | Aplanar | - | - | - | - |
Capa densa | Dense | 512 | - | relu | 0.4 |
Capa densa | Dense | 128 | - | relu | 0.4 |
Capa de salida | Dense | 2 | - | softmax | - |
Parámetros de entrenamiento* 955.362 | |||||
Modelo 6 | |||||
Arquitectura | Función | Filtros o perceptrones | Tamaño de filtro | Función de activación | Deserción (Dropout) |
Función Lambda | Lambda | - | - | - | - |
Convolucional | Conv2D | 20 | (5, 5) | relu | - |
Submuestreo | MaxPooling2D | - | (2, 2) | - | 0.4 |
Convolucional | Conv2D | 50 | (5, 5) | relu | - |
Submuestreo | MaxPooling2D | - | (2, 2) | - | 0.4 |
Aplanar | Aplanar | - | - | - | - |
Capa densa | Dense | 500 | - | relu | 0.4 |
Capa de salida | Dense | 2 | - | softmax | - |
Parámetros de entrenamiento* 6.328.072 *Parámetros de entrenamiento de las capas internas |
Nuevamente, el diseño de las redes neuronales convolucionales se generó en la plataforma Colab con las librerías de Keras y TensorFlow.
2.4 Entrenamiento
El entrenamiento de las redes se realizó con el 80 % de los datos (datos de entrenamiento). Es decir, se usaron las reducciones de 11161 componentes independientes, las cuales se seleccionaron aleatoriamente. Durante el entrenamiento se implementó la validación cruzada, ajustando los parámetros de la red con el 90 % de los datos de entrenamiento y validando con 10 % restante. La técnica toma las particiones aleatoriamente en cada época y al final valida calculando la precisión de clasificación. Por otro lado, el entrenamiento se ejecutó con un tamaño de lote de 16 muestras y 50 épocas de entrenamiento, a fin de alcanzar la máxima precisión [
Los seis modelos se entrenaron con cada conjunto de las tres imágenes generadas por los dos métodos. Además, el proceso se repitió 15 veces y los resultados se almacenaron automáticamente con la función ModelCheckpoint. Finalmente, el desempeño de los modelos se observó mediante la precisión de la validación cruzada (datos de entrenamiento) y con los datos de prueba. Para esta última, se usó el 20 % de los datos restantes, es decir, las 2790 componentes independientes ajenas al entrenamiento a fin de evitar el sobreajuste. Cabe aclarar que, la medida de precisión es el número de aciertos totales sobre el número total de elementos predichos. En otras palabras, es la métrica conocida en aprendizaje de máquina como accuracy [
3.1 Reducción de volúmenes
Se redujeron 13951 volúmenes de las componentes independientes (ver Tabla 1). A cada volumen se le encontraron las representaciones de los cortes axial, coronal y sagital mediante los dos métodos descritos. En la Tabla 3 se muestran los pesos promedios de las componentes por volúmenes y las reducciones a imágenes, donde es notoria la reducción hasta en dos órdenes de magnitud.
Grupo | Puntos de tiempo | Componentes totales | Peso promedio por componente (Kilobits) | |
Volumen | Imagen | |||
Whii_MB6 | 460 | 3346 | 233.45 | 9.86 |
Whii_MB6 | 1000 | 1797 | 239.65 | 10.48 |
Whii_Standard | 200 | 3205 | 125.10 | 5.85 |
Standard | 145 | 1678 | 802.72 | 4.22 |
Standard | 180 | 329 | 868.39 | 5.70 |
Standard | 200 | 3596 | 242.35 | 5.81 |
En la Figura 6 se muestran ocho componentes independientes, cuatro asociadas a actividad neuronal (señal) y cuatro a ruido. Los dos métodos arrojaron imágenes similares con características que se presentan en las mismas regiones anatómicas. Es decir, donde se espera que la componente esté ubicada. Por otro lado, el método 2 es el mapa espacial real de la componente de un único corte (corte medio). Por lo tanto, gracias a la concordancia espacial de las dos imágenes, se puede inferir que el primer método está conservando parte de las características espaciales. Por ejemplo, la componente A en el método 2 indica que esta se ubica en la parte posterior del cerebro, región que se resalta en el primer método. De hecho, los colores de esta región presentan mayor homogeneidad en contraste con la irregularidad de las otras regiones. Por otra parte, las imágenes relacionadas con el ruido no presentan regiones homogéneas tan definidas, lo cual supone una diferencia entre estos dos tipos de componentes independientes.
En la Figura 7 y Figura 8 se muestran las imágenes coronales y sagitales de las mismas ocho componentes independientes. En estas imágenes se presenta un comportamiento similar. Las regiones sobresalen con alguna característica especial, donde se esperaría encontrar la componente. Además, estas regiones concuerdan con la posición espacial respecto a las imágenes axiales. Por ejemplo, la componen A en la Figura 6 se presenta en la parte posterior del cerebro al igual que en la imagen sagital de la Figura 8. Asimismo, en la Figura 7 y Figura 8, las componentes asociadas a ruido presentan un comportamiento irregular respecto a las componentes de actividad neuronal (señal).
3.2 Entrenamiento
El entrenamiento de los seis modelos, los tres conjuntos de imágenes y los dos métodos, generaron 36 posibles combinaciones como se muestra en la Tabla 4. En esta, se registró la precisión máxima alcanzada por los datos de prueba, la cual abarcó valores entre 0.8958 hasta 0.9882. Cabe resaltar que el valor máximo fue entregado por el método de reducción por PCA con el modelo 6 y sobre la imagen coronal.
Modelo 1 | Modelo 2 | |||
Corte | Mét 1 | Mét 2 | Mét 1 | Mét 2 |
Axial | 0.9744 | 0.8958 | 0.9696 | 0.9572 |
Coronal | 0.9795 | 0.9371 | 0.9764 | 0.9456 |
Sagital | 0.9653 | 0.9410 | 0.9677 | 0.9521 |
Modelo 3 | Modelo 4 | |||
Corte | Mét 1 | Mét 2 | Mét 1 | Mét 2 |
Axial | 0.9825 | 0.9696 | 0.9847 | 0.9722 |
Coronal | 0.9849 | 0.9639 | 0.9880 | 0.9642 |
Sagital | 0.9830 | 0.9631 | 0.9860 | 0.9694 |
Modelo 5 | Modelo 6 | |||
Corte | Mét 1 | Mét 2 | Mét 1 | Mét 2 |
Axial | 0.9825 | 0.9778 | 0.9849 | 0.9712 |
Coronal | 0.9858 | 0.9618 | 0.9882 | 0.9585 |
Sagital | 0.9860 | 0.9750 | 0.9875 | 0.9692 |
La Figura 9, Figura 10, Figura 11, ilustran el comportamiento de la precisión, producto de los 15 entrenamientos, frente a los métodos y modelos implementados.
La Figura 9 muestra la distribución para la validación cruzada. En las tres gráficas se ilustra el comportamiento de las imágenes axial, coronal y sagital, respectivamente. En ellas se ve claramente que el método 1 tuvo mejores resultados para las imágenes axial y coronal. Por el contrario, la distribución en la imagen sagital tuvo un comportamiento similar entre los dos métodos.
Análogo al caso anterior, la Figura 10 muestra la distribución para los datos de prueba.
En las tres gráficas se ilustra el comportamiento de las imágenes axial, coronal y sagital, respectivamente. En ellas se ve nuevamente que el método 1 tuvo mejores resultados para las imágenes axial y coronal. Por el contrario, la distribución en las imágenes sagitales no tuvo la misma distinción de las dos anteriores.
La Figura 10 muestra la distribución de los datos de prueba en función de los modelos. En las tres gráficas se ilustra el comportamiento de las imágenes axial, coronal y sagital respectivamente. En estas se ve que el modelo 3 tuvo la peor distribución en todos los casos.
Por otro lado, el modelo 6 con la imagen sagital tuvo una distribución más compacta y alta, concentrándose por encima de 0.9. Finalmente, la imagen coronal tuvo un comportamiento más homogéneo entre los modelos, a excepción del modelo 3. Incluso, esta imagen y el modelo 6 generaron la precisión más alta (ver Tabla 4), además, su distribución se mantuvo por encima de 0.8.
La clasificación de los artefactos, mediante el análisis de componentes independientes, es un tema relevante en la limpieza de las imágenes de resonancia magnética funcional en estado de reposo. La técnica ha impulsado el desarrollo de estrategias estadísticas, matemáticas, de inteligencia artificial y de aprendizaje automático. Claros ejemplos de esto son ICA-AROMA e ICA-FIX [
En este sentido, nosotros propusimos una nueva estrategia de dos etapas para la clasificación de componentes independientes. En la primera etapa, se redujeron los volúmenes de las componentes independientes a imágenes a través de dos métodos diferentes. En la segunda, las reducciones se usaron sobre seis redes neuronales convolucionales a fin de entrenar los mejores modelos de clasificación.
En primer lugar, los dos métodos de reducciones tuvieron una disminución de hasta dos órdenes de magnitud, lo cual supone una reducción en la carga computacional sobre la cantidad de datos necesarios en el aprendizaje profundo [
Por otro lado, todas las redes neuronales convolucionales alcanzaron precisiones de clasificación del 89.59 al 98.82 %, valores muy cercanos al 99 % alcanzado por ICA-FIX [
Además, gracias a los valores altos en la precisión, el enfoque hacia las redes neuronales convolucionales se muestra como una técnica prometedora. Incluso, dando paso a la posibilidad de encontrar una red más eficiente que pueda superar el 99 % producido por ICA-FIX [
Hemos estudiado dos métodos de reducción o representación de los volúmenes de componentes independientes de imágenes de resonancia magnética funcional en estado de reposo. Estos demostraron ser eficientes en cuanto a reducción y conservación de las características espaciales de las componentes independientes. Las reducciones se combinaron con seis redes neuronales convolucionales, a fin de crear modelos de clasificación automática, en donde se alcanzaron precisiones cercanas al 98 % de clasificación. Incluso, se halló una red con una precisión del 98.82 %, superando el poder de clasificación de la mayoría de los métodos de clasificación basados en aprendizaje de máquina.
Este trabajo fue apoyado por el Departamento Administrativo de Ciencias, Tecnología e Innovación (Colciencias) por el proyecto ‘Identificación de Biomarcadores Preclínicos en Enfermedad de Alzheimer a través de un Seguimiento Longitudinal de la Actividad Eléctrica Cerebral en Poblaciones con Riesgo Genético’, código 111577757635. Este artículo no contó con financiación económica.
Los autores declaran no tener ningún conflicto de interés.
Leonel Mera-Jiménez: conceptualización del modelo; diseño e implementación del código computacional; diseño, ejecución y validación de experimentos; preparación del documento borrador original; revisión, edición y aprobación del documento final.
John F. Ochoa-Gómez: conceptualización del modelo; validación de experimentos y código computacional; revisión, edición y aprobación del documento final.