Red de Respuestas Legales - Consulta de marcas - La vida pasada de la secuenciación del genoma completo

La vida pasada de la secuenciación del genoma completo

El genoma representa el punto de partida de la investigación genética. Desde el descubrimiento de la estructura del ADN, los científicos han trabajado para determinar la secuencia de bases de manera precisa. Desde que se secuenció el primer fragmento de levadura en 1965, las longitudes de lectura de la secuenciación aún son insuficientes para cubrir el tamaño completo del genoma de la mayoría de las especies, por lo que la tecnología de ensamblaje del genoma ha sido una tecnología clave para la investigación y el desarrollo continuos. Este artículo revisa sistemáticamente las tecnologías importantes y los principales hitos relacionados con la secuenciación del genoma completo, así como las ventajas y desafíos de la actual tecnología de secuenciación de tercera generación.

La siguiente figura muestra hitos importantes en el ensamblaje del genoma. Fondos de diferentes colores muestran los principales resultados del ensamblaje, desde la secuenciación temprana basada en nucleótidos hasta la secuenciación de escopeta basada en Sanger, la secuenciación NGS de segunda generación a gran escala y ahora la secuenciación TGS actual de tercera generación. El Proyecto Genoma Humano (PGH), que duró 13 años (1990-2003) y costó 3.000 millones de dólares, aceleró sin duda el proceso de ensamblaje del genoma. NGS ha generado una serie de aplicaciones novedosas, incluida la secuenciación del exoma completo, RNA-seq, ChIp-seq, WGBS-seq, etc., que ha promovido en gran medida la aplicación de la secuenciación del genoma. Después de 2010, las nuevas tecnologías marcaron el comienzo de la era de la secuenciación TGS de tercera generación (secuenciación larga de lectura larga), que aumentó en gran medida las ventajas del ensamblaje del genoma y mejoró en gran medida la continuidad del ensamblaje del genoma.

La definición de TGS puede variar, pero generalmente se refiere a una tecnología que secuencia directamente moléculas individuales de ADN sin amplificación. Estas técnicas producen lecturas más largas que NGS y cada lectura puede abarcar desde unos pocos kbps hasta cientos de kbps. Las tecnologías NGS, como las lecturas vinculadas a la genómica 10X y Hi-C, pueden mejorar la contigüidad de los ensamblajes del genoma, pero la aparición de TGS ha facilitado la mejora de la contigüidad de los ensamblajes.

Actualmente existen tres generaciones de tecnologías de secuenciación ampliamente utilizadas: una es la tecnología de secuenciación en tiempo real de una sola molécula (SMRT) perfeccionada y comercializada por Pacific Biosciences (PaciBio), y la otra es desarrollada por Oxford Nanopore Technology (. ONT) comercializaron tecnología de secuenciación de nanoporos. La tecnología de secuenciación SMRT aplica el principio de secuenciación por síntesis. El chip SMRT se utiliza como portador de secuenciación y en el portador se distribuyen millones de orificios de guía de ondas de modo cero (ZMW) a nanoescala. La polimerasa en cada ZMW captura la secuencia de ADN de la biblioteca y los dNTP se excitan mediante fluorescencia, realizando así la síntesis y secuenciación en función de la longitud de la señal fluorescente capturada. Actualmente, existen dos modos de secuenciación SMRT, uno es el modo de lectura larga continua (CLR) y el otro es el modo de secuencia consenso circulante (CCS). CLR tiene longitudes de lectura más largas, pero la secuenciación de bases tiene una tasa de error más alta (la precisión del 90% es mucho menor que NGS (99,9%)), pero los errores de secuenciación son completamente aleatorios. El modo CCS aprovecha esta característica y reduce la tasa de error de sincronización al nivel NGS mediante la autocorrección, mientras que CLR sacrifica la longitud de lectura de sincronización.

La secuenciación de nanoporos utiliza nanoporos bacterianos genéticamente modificados insertados en bicapas lipídicas artificiales, que se colocan en micropocillos individuales de decenas de micrómetros de ancho y se disponen en un chip sensor. A medida que cada hebra de ADN pasa a través de un canal, interfiere con la corriente que fluye a través del poro, y este cambio será medido por un sensor semiconductor. Diferentes bases alteran el campo eléctrico de maneras ligeramente diferentes, y los cambios de corriente registrados pueden traducirse en secuencias de ADN. La longitud que la ONT puede leer es mayor, dependiendo del tamaño de la biblioteca de ADN preparada, pero la precisión de su base es difícil de corregir y la tasa de error de secuenciación también es alta.

La tecnología de secuenciación de tercera generación, debido a su larga longitud de lectura, puede abarcar eficazmente regiones complejas del genoma, mejorando así significativamente la calidad del ensamblaje del genoma. Además, en los genomas diploides (poliploides), el TGS puede generar más fácilmente fragmentos de haplotipos a largo plazo, distinguir la información genética de los padres, evitar los genomas quiméricos y facilitar la detección precisa de variantes estructurales (SV), incluidas variantes largas, indeles grandes. Duplicaciones, inversiones y translocaciones en regiones altamente repetitivas. Al mismo tiempo, la secuenciación de tercera generación también puede lograr la secuenciación epigenética a través de reacciones cinéticas enzimáticas de PacBio o señales de corriente iónica en nanoporos.

FALCON es un software de ensamblaje de novo basado en tres generaciones de datos, desarrollado directamente por PacBio y lanzado en 2013. Hereda el proceso de ensamblaje jerárquico del genoma (HGAP). Primero, las secuencias mismas se comparan para corregir la precisión de lectura de la secuenciación de tercera generación y luego se construyen contigs utilizando un diagrama de De Brukin (DBG), como se muestra en la siguiente figura. FALCON reconoce secuencias diploides y puede generar secuencias alélicas (cóntigs alternativos/a-cóntigs) y secuencias del genoma primario (cóntigs primarios/p-cóntigs) que contienen información de variación del sitio. FALCON-Unzip es una versión mejorada de FALCON, que puede usar los SNP heterocigotos identificados en el ensamblaje inicial para obtener haplotipos altamente tipificados, luego usar datos Hi-C para dibujar diagramas de ensamblaje y usar haplotigos y secuencias * * * para ensamblar completamente dos Haplotipo.

Canu es un software de ensamblaje de tercera generación derivado de Celera Assember, que puede usarse para secuenciar los resultados obtenidos por PacBio y Nanopore. Se ensambla de manera Overlap-Layout-Consistency (OLC), es decir, utilizando la superposición entre secuencias largas, y se divide principalmente en tres pasos: corrección de errores, poda y ensamblaje.

Para FALCON, aunque la corrección de errores previa al ensamblaje mejora enormemente en comparación con longitudes de lectura cortas, los haplotipos ensamblados siguen siendo quiméricos y las secuencias repetidas tienden a plegarse en una sola secuencia. Para resolver este problema, la nueva versión del software TrioCanu lanzada en 2018 puede utilizar completamente la información de los padres para realizar la fase de haplotipo. Utiliza los datos de Illumina de segunda generación de los padres para clasificar las secuencias de las muestras ensambladas de acuerdo con diferentes SNP antes del ensamblaje y luego ensambla de forma independiente dos conjuntos de haplotipos de los padres. Por lo tanto, TrioCanu es particularmente adecuado para el ensamblaje de genomas de alta heterocigosidad. .

La velocidad de cálculo de Canu es muy lenta. HiFiasm es un software de ensamblaje de novo de análisis rápido de haplotipos para lecturas PacBio HiFi desarrollado en los últimos dos años. Puede ejecutarse en varios subprocesos en una máquina para completar rápidamente el ensamblaje del genoma con menos consumo de recursos. Al mismo tiempo, utilizando datos parentales determinados, puede lograr el ensamblaje de haplotipos de descendientes de diferentes padres. Sin embargo, la precisión de la tipificación de haplotipos es ligeramente peor que la de TrioCanu.

La precisión de los resultados del ensamblaje y la optimización del trabajo de cálculo son aspectos que deben considerarse en el ensamblaje. Se han desarrollado diversos software ensamblados desde cero, entre ellos Wtdbg2, Flye, Peregrine, Shasta, etc. , son relativamente rápidos, pero su calidad de montaje puede no ser tan precisa. Todos los métodos y software de ensamblaje del genoma tienen ventajas y desventajas. En aplicaciones prácticas, se pueden considerar las especies de ensamblaje reales, las estrategias de secuenciación y los objetivos de ensamblaje, y se puede seleccionar un software de ensamblaje excelente y preciso con una consideración integral.

Para genomas grandes, incluso las lecturas largas no pueden abarcar toda la secuencia cromosómica, y se necesita información de enlace adicional para localizar y secuenciar los contigs ensamblados, elevando así el ensamblaje del genoma al nivel de Scanfold. El mapeo bionanoóptico es una tecnología de ADN de una sola molécula. Este método genera mapas ópticos genéticos basados ​​en marcadores de ADN, que luego se combinan con los cóntigos ensamblados inicialmente para permitir que los cóntigos secuenciados y en fases adicionales produzcan andamios más largos. Además, la espectroscopía de Bionano se puede utilizar para análisis de SV y metilación.

Otra técnica para orientar y clasificar contigs se basa en la captura de la conformación cromosómica (3C) (Hi-C). La tecnología Hi-C primero utiliza formaldehído para fijar la conformación espacial de los cromosomas y luego utiliza endonucleasas de restricción para tratar el ADN para que vuelva a unir moléculas de ADN espacialmente adyacentes. Esta técnica explota la información espacial del genoma, combinando grupos y andamios superpuestos para distribuirla a nivel cromosómico. Actualmente, Hi-C es la única forma de lograr un andamiaje a nivel cromosómico en genomas grandes, pero a menudo está menos conservado que los andamios de Bionano. El plegamiento impredecible de la cromatina conduce a interacciones en regiones distantes de los cromosomas, lo que potencialmente conduce a errores de ensamblaje, como inversiones artificiales, desalineación de la estructura en el mismo cromosoma o falta de coincidencia de la estructura en diferentes cromosomas. La combinación de diferentes técnicas puede corregir mejor estos errores e incluso obtener ensamblajes telómero a telómero de cromosomas completos.

Los métodos de ensamblaje del genoma se han innovado y optimizado constantemente. La calidad del ensamblaje ha ido mejorando gracias a mejoras continuas en las tecnologías existentes y a la introducción de nuevos métodos de secuenciación de ADN y herramientas bioinformáticas. Las capacidades de alto rendimiento introducidas por NGS y las secuencias de mayor calidad proporcionadas por TGS finalmente hacen que los genomas complejos estén disponibles para estudios de todo el genoma. La investigación en genética humana, incluida la genómica de poblaciones, la localización y el diagnóstico de enfermedades genéticas, la planificación de medicamentos personalizados, la investigación del cáncer y las pruebas prenatales, se ha beneficiado de los avances en la secuenciación y el ensamblaje del genoma durante la última década. Asimismo, estos métodos se utilizan cada vez más en organismos no modelo para comprender los procesos ecológicos y evolutivos. El compromiso con la secuenciación y el ensamblaje del genoma de referencia se ha ampliado desde proyectos de una sola especie a la coordinación de múltiples especies, y actualmente están en marcha proyectos destinados a producir genomas de alta calidad para la mayoría de los organismos mediante la combinación de métodos NGS y TGS.

"El largo camino hacia la genómica: métodos históricos y actuales de secuenciación y ensamblaje del genoma". Comput Structural Biotechnol 2019 17 de noviembre;18:9-19.doi:10.1016/j.csbj.2019.11.002. PMID: 31890139; PMCID: PMC6926122.