¿Cómo evitamos la próxima pandemia mundial? Para los investigadores que colaboran con el Centro de Innovación en la Nube de la Universidad de Columbia Británica (UBC CIC) , la respuesta a esa pregunta se encuentra en una biblioteca masiva de datos de secuenciación genética llamada Sequence Read Archive (SRA).
A través de SRA, los investigadores tienen acceso a millones de gigabytes de datos de secuenciación genética, incluidos el ADN y el ARN de cientos de miles de virus desconocidos. Pero hay un problema: la biblioteca de datos es tan grande que la informática tradicional no puede analizarla ni procesarla de forma exhaustiva. Impulsado por la urgente necesidad de prevenir otra pandemia global, el equipo de UBC CIC colaboró con virólogos computacionales para crear Serratus , una plataforma de descubrimiento viral de ciencia abierta para transformar el campo de la genómica, construida sobre el poder computacional masivo de Amazon Web Services. (AWS) Nube .
Descubriendo el próximo nuevo coronavirus con big data
En los meses posteriores al comienzo de la pandemia, los científicos se dieron cuenta de que si los investigadores de la genómica hubieran visto venir el COVID-19, el mundo podría ser un lugar fundamentalmente diferente hoy. En respuesta, el UBC CIC lanzó el proyecto Open Virome , una iniciativa global colaborativa que busca evitar futuras pandemias mediante la identificación de cientos de miles de virus no descubiertos previamente. El biólogo computacional Artem Babaian, que dirige el proyecto Open Virome, cree que la clave para prevenir la próxima pandemia es el conocimiento, y no se puede adquirir ese conocimiento sin la capacidad de calcular big data. “La cantidad de datos genómicos crece exponencialmente todos los días”, dice Babaian. “Pero nuestros datos están superando rápidamente nuestro poder de procesamiento. Básicamente, tenemos toda la información que necesitamos, pero no tenemos las herramientas para usarla”.
Con ese objetivo en mente, los investigadores del proyecto Open Virome desarrollaron Serratus, una herramienta basada en la nube de AWS que procesa rápidamente los datos de secuenciación de ADN y ARN existentes del SRA. Con Serratus, los investigadores creen que pueden identificar nuevos virus potencialmente dañinos y alertar a los científicos sobre posibles mutaciones en el SARS-CoV-2 que podrían anular la inmunidad colectiva. “Si el SARS-CoV-2 infecta a un ciervo”, explica Babaian, “ese ciervo y el virus SARS-CoV-2 intercambian proteínas de punta. Ese intercambio crea un nuevo virus híbrido que puede reinfectar a los humanos. Este virus no sería una variante de Covid, sería completamente nuevo y potencialmente muy peligroso”. El objetivo, dice Babaian, es usar Serratus para descubrir estas mutaciones con anticipación, para que los médicos puedan detener la nueva variante del virus en su camino.
El poder de la arquitectura básica en AWS
El mayor problema para la SRA es que el conjunto de datos es tan masivo, y crece todos los días, que es casi imposible analizarlo sistemáticamente. Ahí es donde interviene Serratus. Mediante el uso de la nube de AWS, Babaian determinó que podían procesar rápidamente millones de gigabytes de datos aprovechando la elasticidad de la nube y siendo rentables. La clave de su éxito fue mantener la infraestructura de la nube lo más simple posible.
“Esencialmente, creamos la solución utilizando componentes básicos de AWS, lo cual no es típico”, dice Babaian. “Por lo general, la gente busca instancias elegantes. Pero optamos por el componente más pequeño con el que pudiéramos trabajar razonablemente por instancia, porque nuestro objetivo era procesar la mayor cantidad de datos posible, lo más rápido posible, por la menor cantidad de dinero posible”.
Para construir Serratus, el equipo reflejó la base de datos SRA en Amazon Simple Storage Service (Amazon S3) y luego utilizó instancias de Amazon Elastic Compute Cloud (Amazon EC2) para analizar el conjunto de datos. Para asegurarse de que sus hallazgos fueran confiables, aprovecharon el procesamiento paralelo de cantidades muy pequeñas de datos. Esto garantizó la precisión y la escalabilidad, ya que aumentaron la cantidad de datos procesados por minuto. Luego, el equipo trabajó para optimizar las instancias de Amazon EC2 para que fueran lo más rentables posible. Babaian pretendía pagar menos de un centavo para procesar cada conjunto de datos de secuenciación; cuando terminaron, había superado ese objetivo, y el equipo pagó menos de medio centavo por instancia mientras procesaba un millón de conjuntos de datos de secuenciación por día.
Una vez que la solución estuvo optimizada y lista para la acción, el equipo la puso a prueba. En solo 11 días, Serratus procesó la asombrosa cantidad de 5,7 millones de conjuntos de datos de secuenciación, por solo $ 24,000. A partir de esos datos, el equipo descubrió 130.000 nuevos virus de ARN. Cuando compara esto con los procesos tradicionales, los resultados son asombrosos. Anteriormente, los científicos habían descubierto solo 15 000 virus después de décadas de análisis de datos, y era común gastar cientos de millones de dólares en estudios para encontrar algunos miles de virus nuevos. Utilizando la arquitectura básica de AWS, el equipo de Open Virome le ahorra a la comunidad científica millones de dólares y años de tiempo en el descubrimiento de nuevos virus.
Prevención de pandemias con procesamiento de datos ultraoptimizado
Con las herramientas implementadas para procesar y analizar rápidamente los datos de secuenciación, el proyecto Open Virome ahora está dirigiendo su atención hacia la prevención de pandemias en tiempo real. “Ahora estamos investigando la automatización de la anotación de los conjuntos de datos, para que podamos dar significado a estos virus desconocidos”, dice Babaian. “Nuestro objetivo es crear una herramienta de análisis rápido que pueda vincular a un paciente con un virus desconocido con su epidemiología utilizando datos SRA. Queremos que la epidemiología se escriba sola”.
Sin embargo, en última instancia, Open Virome es más que solo prevenir pandemias. “Estas bases de datos se están convirtiendo en un registro histórico de nuestra biodiversidad en todo el planeta”, señala Babaian. “Estamos tratando de capturar todo el arco de la historia genética, y ese potencial de investigación es enorme”. Y esta información puede ayudar a los científicos de todo el mundo. Todos los datos de Open Virome están disponibles de inmediato en serratus.io y en los repositorios de datos abiertos de AWS . Las herramientas de código abierto de AWS significan que cualquier organización puede aprovechar el conjunto de datos de Open Virome. “Este es verdaderamente un proyecto comunitario”, dice Babaian. “Y la comunidad es la clave de nuestro éxito”.