Aprendizaje automático en la ciencia: Interpretación de la regulación de los genes

 

Aprendizaje automático en la ciencia: Interpretación de la regulación de los genes

Casi todas las células del cuerpo de una forma de vida tienen el mismo ADN. Los genes son trozos de este ADN que codifican para las proteínas o (menos comúnmente) otras biomoléculas enormes. Un gen se comunica a través de un procedimiento de dos pasos en el que el ADN del gen se descifra primero en ARN, que luego se convierte en la proteína correspondiente. Una innovación épica de los microarrays de expresión génica -cuyo avance comenzó en la segunda mitad de los años noventa- está afectando revolucionariamente a la biología molecular y permite examinar la parte de ADN a ARN de este importante procedimiento biológico. ¿Por qué razón esta nueva mejora de la biología debería interesar a los investigadores en la IA y en diferentes áreas de la inteligencia artificial?

Si bien la capacidad de medir la transcripción de un solo gen no es nueva, la capacidad de cuantificar sin un momento de retraso la transcripción de un número considerable de genes en un ser vivo sí lo es. Por lo tanto, la cantidad de datos que los biólogos necesitan analizar es abrumadora. Un número significativo de los conjuntos de datos que retratamos en este momento de alrededor de 100 muestras, donde cada muestra contiene alrededor de 10.000 genes estimados en un microarray de expresión génica.

Supongamos que 50 de estos pacientes tienen una enfermedad, y los otros 50 tienen una enfermedad alternativa. Descubrir una mezcla de genes cuyos niveles de expresión puedan reconocer estos dos grupos de pacientes es una tarea abrumadora para un humano, pero moderadamente natural para un algoritmo de aprendizaje automático. Obviamente, este ejemplo muestra además un desafío que los datos de microarreglos plantean para los algoritmos de aprendizaje por máquina y la dimensionalidad de los datos es alta en comparación con el número común de puntos de datos.

Los algoritmos de aprendizaje automático, por ejemplo, están ayudando a los biólogos a comprender el desconcertante número de signos moleculares que controlan el funcionamiento de los genes. En cualquier caso, a medida que se crean nuevos algoritmos para analizar mucha más información, también se vuelven progresivamente desconcertantes y cada vez más difíciles de descifrar. Los biólogos cuantitativos Justin B. Kinney y Ammar Tareen tienen un sistema para diseñar algoritmos avanzados de aprendizaje automático que son más sencillos de comprender para los biólogos.

Los algoritmos son una especie de red neural artificial (RNA). Provocadas por la forma en que las neuronas se interconectan y se ramifican en el cerebro, las RNA son los fundamentos computacionales para el aprendizaje de máquinas de vanguardia. Además, a pesar de su nombre, las RNA no se utilizan únicamente para contemplar las mentes.

Los estudiosos, como Tareen y Kinney, usan las RNA para analizar la información de un método exploratorio llamado «ensayo de reportero masivamente paralelo» (MPRA) que investiga el ADN. Utilizando esta información, los biólogos cuantitativos pueden hacer RNA que anticipan qué moléculas controlan genes explícitos en un procedimiento llamado regulación de genes.

El aprendizaje automático tiene mucho que ofrecer a la nueva innovación progresiva de los microarrays de genes. Desde el diseño de microarrays en sí, hasta la biología esencial y la medicación, los investigadores han empleado el aprendizaje automático para hacer chips genéticos progresivamente útiles y valiosos. Los chips genéticos acaban de cambiar el campo de la ciencia. La información que puede haber tardado mucho tiempo en obtenerse, actualmente tarda siete días.

Los biólogos reciben una enorme ayuda gracias a las técnicas de aprendizaje supervisadas y no supervisadas que muchos están utilizando para comprender la enorme cantidad de datos a los que tienen acceso en la actualidad, y seguirán surgiendo tareas de aprendizaje extra difíciles a medida que el campo se desarrolle. Así pues, hemos visto un rápido incremento en el ritmo al que los biólogos pueden comprender los procesos moleculares que subyacen y supervisan la función de los sistemas biológicos.

Las células no necesitan proteínas constantemente. Más bien, dependen de complejos mecanismos moleculares para activar o desactivar los genes que producen las proteínas, variando. En el momento en que esas pautas se quedan cortas, suelen aparecer trastornos y enfermedades.

«Ese conocimiento mecanicista, viendo cómo funciona algo como la regulación de los genes, es todo el tiempo la diferencia entre tener la opción de crear terapias moleculares contra las enfermedades y no tener la opción de hacerlo», dijo Kinney.

Lamentablemente, la forma en que se forman las RNA estándar a partir de la información de la MPRA es totalmente diferente de la forma en que los investigadores plantean preguntas en las ciencias de la vida. Este desajuste implica que los biólogos piensan que es difícil descifrar cómo se produce la regulación de los genes.

Kinney y Tareen construyeron otra metodología que conquista cualquier obstáculo entre las herramientas computacionales y la forma de pensar de los biólogos. Hicieron RNA personalizadas que reflejan numéricamente las ideas básicas de la biología sobre los genes y las moléculas que los controlan. En este momento, los pares están básicamente conduciendo sus algoritmos de aprendizaje de máquinas para procesar datos de tal manera que un biólogo pueda comprender.

A medida que nuestra enorme cantidad de información genómica y comparativa sigue desarrollándose, el papel de los métodos computacionales, en particular el aprendizaje de las máquinas, se desarrollará con ella. Estos algoritmos nos permitirán abordar la tarea de analizar esta información para obtener una visión importante de los sistemas biológicos que nos rodean y de las enfermedades que nos afectan.

Leave a Comment!