Estructura de la población - construcción del árbol filogenético
A través de la introducción del artículo anterior, ya hemos entendido el concepto básico de los árboles evolutivos, entonces, ¿cómo obtener un árbol evolutivo creíble?
Para el análisis genético de poblaciones, generalmente se construye un árbol filogenético basado en los datos del sitio de SNP de población. Por lo tanto, a continuación utilizaré principalmente datos de SNP como ejemplo para presentar el método de construcción de un árbol evolutivo.
Comparación de secuencias->;Método de selección de árboles->Cálculo del mejor modelo alternativo->;Establecimiento de árbol filogenético->;Embellecimiento evolutivo de árboles
Comparaciones de secuencias comunes para el software que existe son Clustal y Músculo.
Clustal no sólo tiene su propio software independiente (soportado por varios sistemas operativos), sino que también suele estar integrado en algún software de uso común, como Bioedit y MEGA.
Muscle también soporta una variedad de sistemas operativos.
Ambos software se citan con frecuencia. No existe un software absolutamente mejor o peor. Utilice el que le resulte más conveniente.
1. Método basado en la distancia Método de la distancia:
Método basado en la distancia: Primero, a través de la comparación entre especies, se deduce la distancia entre taxones de acuerdo con ciertos supuestos (modelo de distancia evolutiva). Distancia evolutiva, construya una matriz de distancia evolutiva. La construcción del árbol evolutivo se basa en las relaciones de distancia evolutiva en esta matriz.
2. Método basado en caracteres Método de características:
Método basado en características: no calcula la distancia entre secuencias, pero trata los diferentes sitios de la secuencia como características independientes y construye una. árbol basado en estas características.
La base para la selección del modelo es la siguiente:
El método UPGMA se ha utilizado con menos frecuencia. En términos generales, si el modelo es adecuado, el efecto de ML es mejor. Para secuencias correlacionadas, algunas personas prefieren MP porque utiliza la menor cantidad de suposiciones. MP generalmente no se usa para secuencias remotas. En este caso, generalmente se usa NJ o ML. Para secuencias con baja similitud, la atracción de ramas largas (LBA) a menudo ocurre en Nueva Jersey, lo que a veces interfiere seriamente con la construcción de árboles evolutivos. Los métodos bayesianos son demasiado lentos. Con respecto a la precisión de varios métodos para construir árboles filogenéticos moleculares, una revisión (Hall BG, 2005) cree que el método bayesiano es el mejor, seguido por ML y MP. De hecho, si la similitud de secuencia es alta, todos los métodos obtendrán buenos resultados y las diferencias entre los modelos no serán grandes. Sin embargo, NJ es un modelo de ML que se utiliza ampliamente en los artículos actualmente.
En análisis filogenético, la máxima verosimilitud (ML) y el bayesiano (BI) son dos algoritmos muy sensibles a modelos alternativos. Por tanto, antes de reconstruir un árbol filogenético utilizando métodos ML o BI, la selección de modelos alternativos es un proceso esencial.
Para el uso de jModelTest en el sistema operativo Win, consulte este artículo: Un ejemplo de selección del modelo de sustitución de nucleótidos: jModeltest de Zhang Honglei.
Para conocer el uso de PROTECT, consulte este artículo: Uso de PROTECT para seleccionar el mejor modelo de sustitución de aminoácidos.
Básicamente uso la versión Linux de jModelTest, que es extremadamente sencilla de usar. Estos comandos son los siguientes:
Descripción del parámetro:
-d: Archivo de entrada. ¡estar en posición de firme! Este software requiere un archivo de entrada. formato phy, no. formato fasta.
-f: Incluye modelos con frecuencias básicas desiguales
-g: Incluye modelos de cambio de tasa para diferentes ubicaciones y número de categorías
-i: Incluye modelos con Modelos para sitios invariantes de escala
-s: número de alternativas
-v: realizar el promedio del modelo y la importancia de los parámetros
-a: estimar la filogenia promedio de cada modelo para criterios efectivos
- BIC: Calculando el criterio de información bayesiano
- AIC: Calculando el criterio de información de Akaike
En la parte inferior de los resultados, hay un lista como se muestra en la imagen, cuál es el modelo de automóvil con la puntuación más alta.
Después de calcular el mejor modelo, comenzamos a obtener resultados. Para la construcción de árboles de ML, le recomendamos utilizar la nueva generación de RAXML-RAXML-NG.
RAxML siempre ha sido una herramienta clásica para la construcción de árboles de ML, desarrollada por Alexandros Stamatakis del Instituto de Teoría de Heidelberg en Alemania.
En los últimos años, su estatus ha sido cuestionado por otros programas, especialmente IQ-Tree. El artículo "Evaluación de programas filogenéticos rápidos basados en máxima probabilidad utilizando conjuntos de datos filogenéticos inteligentes" de Zhou et al comparó sistemáticamente el efecto real y el rendimiento de RAxML, IQ-TREE, FastTree y Phyml. Una de las conclusiones es que IQTREE tiene mayor precisión. Precisión ligeramente mejor que la anterior.
¡Recientemente se lanzó una versión mejorada de RAxML, raxml-ng!
En comparación con el producto de la generación anterior, raxml-ng tiene las siguientes ventajas:
No hay mucho que decir, resultados directos:
Descripción de parámetros:
- todo: realiza análisis integrado (búsqueda de árbol ML + arranque no paramétrico)
- msa: se utiliza para archivos de secuencia posteriores
-modelo: ingresa directamente el generado en el paso anterior Mejor modelo.
- bs-trees: verifica la solidez del árbol, realiza pruebas de arranque y realiza 1000 muestreos de arranque.
-Hilo: hilo dado
El resultado después de la ejecución se muestra en la siguiente figura, donde. bestTree es el archivo de árbol que queremos. Simplemente importe la herramienta de visualización de árboles (normalmente uso MEGA e iTOL. La próxima vez escribiré sobre cómo embellecer el árbol evolutivo).
Los trabajadores que hacen análisis evolutivos pueden tener la sensación de que muchos análisis tienen que esperar varios días, sobre todo los resultados (todos los que lo han hecho conocen el dolor), y a veces tardan mucho en añadirse de repente. una muestra. Empezar de nuevo. Por tanto, un servidor potente es una herramienta imprescindible. Por ejemplo, en el árbol evolutivo de SNP mencionado anteriormente, solo creé especies similares y el genoma era muy pequeño (9M), con 40.000 sitios de SNP. Si quiero usar mi software MEGA para llamar a la CPU de 8 núcleos de mi computadora, el valor desarrollado por mí mismo de 1000 puede ser suficiente para graduarme.
Como persona biológica, plagié mis escasos conocimientos informáticos. Cuando nuestro grupo de investigación compró un servidor, hice muchos deberes. Por supuesto, escuché principalmente los consejos del personal técnico de la empresa, pasé mis pruebas a muy, muy largo plazo y utilicé muchas veces software de análisis bioinformático de uso común (principalmente dedicado a la investigación de genomas de parásitos, transcriptomas de huéspedes, metagenomas 16S, etc. .). Finalmente encontré una configuración de servidor muy rentable, la configuración específica es la siguiente:
Agradezco sinceramente a los hermanos y hermanas técnicos de Fengwei por responder varias preguntas de bajo nivel. Si necesitas algo, puedes ponerte en contacto con su tecnología, que parece bastante fiable. Sitio web oficial: Tecnología Fengwei.
Pone su logo para dar las gracias.
Este artículo son mis notas de estudio, espero que sean de ayuda para todos. Este artículo hace referencia a una gran cantidad de artículos en línea y las fuentes de los artículos se enumeran al final del texto completo.
Referencia:
Lea el árbol evolutivo en un artículo
Utilice ProtTest para seleccionar el mejor modelo de sustitución de aminoácidos
RAxML-ng , Una nueva generación de construcción de árboles evolutivos RAxML