DUVI

Diario da 鶹

Foi realizada polo investigador Osvaldo Graa

Unha tese desenvolve software para mellorar procesos de anlise de datos de secuenciacin masiva de ADN e ARN

Os 'pipelines' Nextpresso, Bicycle e Metatax estn dispoibles na rede para a súa descarga

Etiquetas
  • Estudantes
  • Medios
  • PAS
  • PDI
  • Público externo
  • Ourense
  • ú
  • TIC
  • Աپ
DUVI Ourense 27/01/2021

A expansin das tecnoloxas de secuenciacin masiva ou de nova xeracin (Next Generation Sequencing ou NGS) de ADN e ARN leva consigo un grande esforzo bioinformtico para desear, desenvolver e/ou adaptar algoritmos que analicen os datos xerados coa maior precisin e eficiencia posibles. Co obxectivo de contribur ao avance neste eido, o bioinformtico Osvaldo Graa Castro abordou na súa tese de doutoramento o deseo e desenvolvemento de tres pipelines (software que executa programas requiridos dentro dunha secuencia ordenada lxica) de aplicacin na anlise de datos procedentes de secuenciacin masiva, concretamente na anlise da expresin e metilacin de xenes e na identificacin e cuantificacin de poboacins bacterianas en mostras biolxicas.

A tese, titulada Deseo e desenvolvemento de workflows software para a anlise de datos procedentes de secuenciacin masiva, estivo dirixida por Daniel Gonzlez Pea, membro do grupo de investigacin SING (Next Generation Computer Systems Group) e profesor da Escola Superior de Enxeara Informtica do campus de Ourense, e Alfonso Valencia Herrera, director do Instituto Nacional de Bioinformtica e profesor de investigacin ICREA no Barcelona Supercomputing Center. Foi realizada no marco do Programa de Doutoramento en Sistemas de Software Intelixentes e Adaptables da 鶹 e presentada este curso académico de xeito telemtico. O traballo presentado nesta tese, indica Osvaldo Graa Castro, naceu no ano 2014 en base a necesidades da Unidade de Bioinformtica do Centro Nacional de Investigaciones Oncolgicas, onde traballa, e coa colaboracin co grupo de investigacin SING.

Segundo explica o seu autor, a tese xorde nun contexto no que a secuenciacin masiva ten interrompido con moita forza no campo da bioloxa molecular e da xenmica, “cunha implicacin clara na prctica clnica, abrindo un novo escenario no contexto de certas enfermidades con base xenética, como por exemplo o cancro, onde est servindo como un elemento adicional para establecer un diagnstico, estimar o prognstico, suxerir un tratamento ou ben predicir a resposta ao mesmo”. Hoxe en da, apunta Osvaldo Graa Castro, existen distintas firmas comerciais que implementan esta técnica en base a aproximacins tecnolxicas diferentes pero que teen “o común denominador de que todas elas son capaces de producir desde miles a millns de lecturas de maior ou menor tamao, segundo a tecnoloxa, que corresponden a rexins concretas de moléculas de ADN o ARN”. Todas as lecturas xeradas, detalla, precisan de algoritmos e programas informticos capaces de analizalas con precisin e rapidez e tamén de pipelines bioinformticos que, “de maneira coordinada, executen os programas necesarios, xerando, combinando e presentando os resultados de forma amigable, vez que aproveitan ao mximo a capacidade computacional dispoible”.

Novas ferramentas

Na tese, comenta o seu autor, en primeiro lugar deseouse e desenvolveuse un pipeline, denominado Nextpresso, para analizar lecturas cortas de RNA-seq obtidas de mostras biolxicas para detectar cambios na expresin dos xenes. A continuacin deseouse e desenvolveuse un segundo software, chamado Bicycle, para analizar lecturas cortas de BS-seq, procedentes de mostras de ADN tratadas previamente con bisulfito sdico, para detectar cambios na metilacin dos xenes. Finalmente, deseouse e desenvolveuse un terceiro pipeline, Metatax, para poder identificar e cuantificar poboacins bacterianas en mostras de interese biolxico (como mostras de feces, bucais ou de pel) mediante a secuenciacin do marcador xenético ARN ribosomal 16S.

A usabilidade e achega cientfica destas ferramentas informticas, comenta o xa doutor pola 鶹, “queda patente pola ampla cantidade de estudos cientficos que os referencian ou que teen feito uso dos mesmos, maioritariamente de Nextpresso, que ten sido empregado para avanzar no coecemento en diversas reas”, como os RNAs teloméricos ou os mecanismos de metstase en melanoma. Os pipelines deseados, que se aplicaron anlise de datos procedentes de tres modalidades distintas de NGS, estn dispoibles para o público mediante distintas vas, como son DockerHub, GitHub ou CompiHub, inclundo segundo o caso o cdigo fonte.

A nivel mis xeral, engade Osvaldo Graa Castro, a realizacin desta tese ten permitido identificar cuestins comúns a todos os pipelines que se poden abordar desde frameworks xenéricos de desenvolvemento dos mesmos. O traballo realizado e a experiencia adquirida durante o deseo e implementacin destas tres ferramentas, detalla, ten conducido ao equipo desta tese " creacin dun novo framework para un desenvolvemento xil e flexible de pipelines, denominado Compi, que simplifica e acelera a creacin dos mesmos". Compi, apunta o investigador, aborda múltiples aspectos do desenvolvemento deste tipo de software, como a facilidade de implementacin, a escalabilidade na execucin, a portabilidade e a reproducibilidade dos resultados.