Grupo de discusión PAML
Esta nota se utiliza principalmente para registrar algunos problemas encontrados en el análisis PAML y actualizarlo a largo plazo.
Página de inicio de PAML
Manual de PAML
Preguntas frecuentes sobre PAML
Grupo de debate sobre PAML
Principios básicos de la teoría PAML Sí, el nivel de presión de selección natural sobre las secuencias codificantes de proteínas se puede medir mediante el valor de dN/dS(ω), donde dS representa la tasa de sustitución sinónima y dN representa la tasa de sustitución no sinónima. Cuando no hay presión de selección, la tasa de sustitución sinónima y la tasa de sustitución no sinónima son iguales, dn/ds = 1; cuando se somete a selección negativa o presión de selección purificadora, la selección natural evitará cambios de aminoácidos y la tasa de sustitución sinónima; será mayor que la tasa de sustitución no sinónimo. Es decir, tasa de sustitución, es decir, DN/DS 1.
Proceso simple PAML
Para ejecutar el software paml normalmente, se necesitan cuatro archivos estándar. son obligatorios:
Configuración del archivo de árbol:
Cabe señalar que debe haber un punto y coma al final del árbol en formato Newick; de lo contrario, el programa no se ejecutará normalmente.
El análisis de Paml implica principalmente cuatro modelos: modelo de sitio, modelo de sucursal, modelo de sitio de sucursal y modelo de sucursal evolutiva. El modelo de locus suele ser adecuado para detectar selección positiva general y extensa en una determinada rama. Esta selección positiva es causada por cambios continuos en el locus, como la adaptación a muchos patógenos, el modelo de rama detecta principalmente si una rama tiene una evolución y selección rápidas; restricción de presión y selección positiva, pero no puede detectar sitios de selección positiva; el modelo de punto de ramificación es más preciso y estable, y es adecuado para detectar eventos de selección positiva en puntos de interrupción de ramificación. Este resultado se produce al adaptarse a los cambios ambientales en un período determinado y suele persistir en las generaciones futuras. El modelo de ramificación se utiliza principalmente para determinar si diferentes especies están bajo la presión de la diferenciación y la selección, y no se limita a la selección positiva. Puede marcar varias ramas para compararlas a la vez.
M0: Suponga que todos los loci tienen el mismo valor dN/dS
M1a: Suponga que hay dos loci - locus conservado 0
M2a: Suponga hay tres tipos de sitios: sitio de selección de purificación DN/DS 1, y se estima la proporción de tres tipos de loci (p0, p1, P2): modelo discreto, suponiendo que todos los sitios son discretos; distribución de valores ω;
M7: asume que todas las trayectorias son 0
M8: basado en el modelo M7, un tipo de sitios seleccionados positivamente (ω>; 1);< /p >
M8a: similar a M8, excepto que el nuevo ω se fija en 1;
Configuración de parámetros del modelo de sitio Codeml.ctl:
A rario: asumiendo todos los linajes evolutivos Todas tienen el mismo valor ω;
Proporción libre: suponga que todas las ramas tienen valores ω independientes;
Dos proporciones: suponga que las ω de la rama de primer plano y de la rama de fondo son diferentes .
Configuración del parámetro Codeml.ctl del modelo de sucursal:
Suponga que el valor ω entre sitios está cambiando, y también se supone que el valor ω entre ramas está cambiando. Este modelo se utiliza principalmente para detectar el impacto de la selección positiva en ciertos sitios en la rama de primer plano.
ModelA nulo: el valor ω se establece en un valor fijo de 1.
ModeloA (hipótesis alternativa): Estima si su valor ω es mayor que 1.
La rama de fondo y la rama de primer plano tienen el mismo valor ω del sitio:
K0: el sitio en la rama de primer plano y la rama de fondo se purifican y se seleccionan como 0
K1: Los loci en la rama de primer plano y la rama de fondo están en evolución neutral 0
La rama de fondo y la rama de primer plano tienen diferentes valores de ω de sitio:
K2a: La rama de primer plano está en evolución neutral, la rama de fondo está bajo selección purificadora;
K2b: la rama de primer plano está sujeta a presión de selección positiva (ω>; 1), mientras que la rama de fondo está en evolución neutral;
Codeml del modelo de punto de sucursal.Configuración del parámetro ctl:
En comparación con el modelo de sitio de sucursal, puede detectar múltiples sucursales al mismo tiempo, pero este modelo no limita el dN. Valor /dS de la rama de fondo a (0, 1).
La simple diferencia es que el nodo ancestro de un árbol enraizado es un árbol binario, mientras que un árbol no enraizado es un árbol tridente. Por ejemplo:
Cuando usa codeml, si no se especifica el parámetro del árbol raíz, pero el árbol raíz se usa como entrada, obtendrá un mensaje de error en el resultado de salida: "Este es un árbol enraizado .¡por favor, compruebe!". Para la mayoría de los modelos, la probabilidad del modelo sigue siendo correcta incluso cuando se utiliza un árbol enraizado, pero las longitudes de las dos ramas alrededor de la raíz son inestables porque su suma es una estimación. Para otros modelos, tanto las estimaciones de probabilidad como de parámetros son incorrectas. Por lo tanto, debemos prestar atención a esta información al analizar y utilizar un árbol sin raíz tanto como sea posible. Podemos usar el paquete R ape para convertir un árbol enraizado en un árbol no enraizado:
En el proceso de alineación de secuencias múltiples, es extremadamente difícil alinear espacios y el paquete de software paml no tiene forma de manejarlo. brechas. Por lo tanto, podemos eliminar la brecha; estableciendo datos limpios = 1; además, la brecha puede tratarse como un carácter ambiguo;
Sin embargo, esta no es la mejor solución y ambas estrategias subestiman las diferencias de secuencia. Personalmente creo que, excepto una o dos secuencias, la mayoría de los sitios con información de secuencia deben conservarse y, excepto una o dos secuencias, todos los sitios con lagunas de alineación deben eliminarse. Por lo tanto, es particularmente importante elegir el software de filtrado y alineación de secuencias múltiples adecuado.
Si se detecta la rama de primer plano, su dn/ds > 1, podemos considerar que está afectada por la selección directa. Sin embargo, si es DN/DS
Por lo general, si una trayectoria aparece en una lista bajo un modelo, habrá una probabilidad considerable de que aparezca bajo otro modelo. Si los miras de esta manera, los resultados probablemente no serán tan diferentes. El problema de determinar los sitios es difícil y propenso a errores. Esta situación es similar a encontrar al mejor estudiante de una clase. Cuanto más contenido contenga una lista, peor será la calidad. Por eso solemos pensar que los sitios con probabilidades posteriores superiores al 95% o al 99% son más creíbles.
Si sigues un determinado nodo, puedes usar "#"; si sigues un determinado grupo, puedes usar "$". Para los modelos de sitio y los análisis de proporciones libres, no es necesario etiquetar las ramas de primer plano; para los modelos de ramificación y los modelos cladísticos, un único análisis puede etiquetar varias ramas de primer plano; sin embargo, un único análisis para un modelo de punto de rama puede etiquetar sólo una rama de primer plano; .
Los dos ejemplos anteriores son en realidad equivalentes, por lo que $1 puede marcar ramas grandes, incluidos sus nodos ancestros y nodos vivos. Y el número 1 solo representa la rama terminal o el nodo ancestro.
Aquí hay algunas reglas sobre clados anidados. El símbolo # tiene prioridad sobre $, y las etiquetas de las ramas en la parte superior del árbol tienen prioridad sobre las etiquetas de las ramas en los nodos ancestros cerca de la raíz. También lo son los dos árboles de abajo. En el primer árbol, $1 se aplica a todo el clado de mamíferos placentarios (excepto el linaje humano) y $2 se aplica al clado de conejos y ratones.
Con el software TreeView, puede crear fácilmente un archivo de árbol y comprobar que el árbol y las etiquetas son correctos. TreeView puede reconocer todos los árboles. En TreeView X, debe marcarse entre comillas simples. Como se muestra a continuación:
Además, también puede marcar varias ramas como ramas frontales unificadas al mismo tiempo, como
Enlace 1
Enlace 2< /p >
[Error en la carga de la imagen...(image-4ab 1 a5-1584449462345)]
Cierto gen copiado en el antepasado de los animales se diferenciaba en dos ramas diferentes, A y b.
Valores más altos de dN/dS se pueden interpretar como selección positiva o evolución rápida. Aunque la mutación en sí tiene presión selectiva (principalmente selección purificadora), no se puede explicar que "el gen A aumente la presión selectiva de la mutación" simplemente porque la mutación ocurre al azar. En principio, la tasa de mutación afectará a dN y dS, pero normalmente dN/dS no se ve afectada por la tasa de mutación.
DN/dS es una tasa evolutiva, pero no una tasa de mutación, porque las tasas de sustitución sinónimas y no sinónimas tienen diferentes grados de restricciones de selección. El fundamento de las pruebas de estrés selectivas es asumir que las sustituciones sinónimas son neutrales, es decir, la mayoría evoluciona bajo deriva genética. Si esto es cierto, entonces dS puede servir como sustituto de la tasa de mutación (neutral). La tasa de sustituciones no sinónimas, por otra parte, siempre está bajo la presión de la selección purificadora y, en menor medida, de la selección directa. Por tanto, dN/dS es una medida de sesgo neutral. Por lo tanto, dN > DS, es decir, dN/dS > 1, es una selección positiva si dN es menor que dS, entonces dn/ds < 1 es una opción de purificación. La clave de la prueba de estrés selectiva es que normaliza la tasa de sustitución sinónima mediante una tasa evolutiva "neutral" de sustitución sinónima para un gen específico.
En cualquier caso, es mejor utilizar un árbol genético que represente la verdadera historia evolutiva. Sin embargo, a veces puede no ser fácil juzgar si se ajusta a la verdadera historia evolutiva, por lo que puedes elegir un árbol de especies. Luego, el análisis a nivel del genoma recomienda árboles de especies. Las pruebas de solidez de los datos se pueden realizar utilizando árboles de genes y árboles de especies.
Si se toman en primer plano los ancestros de los mamíferos, se supone que el gen era adaptativo en el mismo ancestro, posiblemente debido a la adquisición de una nueva función, pero luego el gen evolucionó de forma conservadora bajo selección purificadora. Si se considera toda la rama como una perspectiva, entonces se supone que todas las ramas de los genes de los mamíferos están bajo presión constante para cambiar o diversificarse, lo que podría ser el caso si el gen participa en la defensa o la inmunidad.
La cuestión biológica depende de si se deben detectar ancestros o ramas enteras. Por ejemplo, la lisozima debería tener la misma función en todos los monos clonados, por lo que se espera que la proteína esté restringida selectivamente dentro del clado. Sin embargo, en una rama del clado de la clorobina, la enzima aparentemente adquirió una nueva función, con una selección positiva que impulsaba los cambios de aminoácidos. Con esta suposición, debes etiquetar a los ancestros de las ramas como clado, en lugar de aquellas ramas dentro del clado.
Los comentarios del revisor tienden a ser los siguientes: un apoyo significativo para genes seleccionados en la rama de primer plano no significa que no haya una selección positiva en la rama de fondo. Estos genes pueden estar en muchos (si no en todos) los de fondo. sucursales todavía en selección positiva. Para probar si la hipótesis inicial (los genes se seleccionan positivamente solo en la rama de primer plano) es correcta, el modelo de Clado se puede probar más a fondo porque el modelo de clado permite estimar la relación dS/dN de la rama de primer plano a la rama de fondo sin limitar la rama de fondo. dN/dS menor que 1.
Una posibilidad es que exista evidencia de selección positiva para todo el gen, pero la información o evidencia para cada locus individual sea demasiado débil. Puede consultar el primer archivo, que contiene las probabilidades posteriores de todos los sitios, para ver si este es el caso. El archivo mlc sólo enumera archivos con probabilidades posteriores superiores a 0,5.
Puede deberse a que codeml elimina espacios o columnas con caracteres ambiguos y luego renumera los sitios (cleandata =1).
Cuando encuentre este dN/dS máximo, como ω = 999, primero asegúrese de que su secuencia sea correcta; en segundo lugar, si el dn y ds en esta posición son mucho menores que 0,0001 y si la longitud de la rama Es demasiado pequeño. Obviamente, secuencias muy similares y secuencias muy diferentes no son informativas, lo que dificulta la asignación de valores precisos. Para evitar este tipo de problemas, primero podemos obtener la longitud de la rama a través del modelo M0, luego aplicar el árbol evolutivo de la longitud de la rama a codeml y establecer FIX_blength = 2 en ctl.
Como se muestra en la figura, las ramas rojas representan ramas evolutivas con convergencia fenotípica. Si desea detectar la evolución convergente adaptativa a través de un modelo de sitio de sucursal, todas las sucursales rojas deben configurarse como sucursales de primer plano. Por supuesto, la premisa es que todas las ramas en primer plano tienen la misma trayectoria y están seleccionadas positivamente. Los modelos cladísticos cladísticos pueden detectar si los clados de fondo también tienen una convergencia adaptativa similar.
P0/ω0, p 1/ω1, P2 = (1-P0-p 1)/ω2: En el archivo de resultados de hipótesis alternativas del análisis de selección positiva se suelen obtener tres valores de p, entre donde P0 representa la probabilidad del sitio bajo selección purificadora; P1 representa la probabilidad del sitio bajo evolución neutral; P2 representa la probabilidad del sitio bajo selección positiva;
Podemos probar la hipótesis estadística utilizando la hipótesis alternativa de dos razones (fix_omega = 0 omega = 1) y la hipótesis nula de dos razones (fix_omega = 1 omega = 1).
Codeml puede detectar la relajación de las restricciones de selección en dos pasos: primero, identificar situaciones en las que dN/dS aumenta significativamente (debido a la selección positiva o la relajación de las restricciones de selección y luego, filtrar situaciones en las que la selección positiva significativa); ocurre.
Para los modelos CladeC y CladeD, generalmente es necesario establecer varios ω iniciales diferentes para probar si el valor de lnL es estable (ω=0,001, ω=0,01, ω=0,1, ω=0,5, ω= 1, ω =65438
Durante el análisis normal, primero use M0 para estimar la longitud de la rama y el valor Kappa del árbol, luego use el árbol de escape como árbol inicial y establezca fix_blength = 2.
p>
Enlace 1<. /p>
Enlace 2
CladeC se usa a menudo para detectar la diferenciación y la presión de selección de diferentes ramas, pero a veces la rama de primer plano DN/DS >; En este momento, la hipótesis nula de CladeC (fix _ omega = 1, omega = 1) se verifica o verifica aún más la coherencia con la estimación del sitio de sucursal.
La estimación del modelo de proporción libre generalmente conduce a mayores. error de muestreo, por ejemplo, las ramas más cortas generalmente tienen dS/dN más grandes. Entonces, en términos generales, DN/DS > 999 o dN, DS
Hay tres ramas A, B y C en el conjunto de datos. ¿Existen diferencias significativas entre la rama 1 y la rama 2?
Supongamos que las ramas en primer plano están etiquetadas de la siguiente manera:
Primero, para probar diferencias significativas entre CLADEC, puede comparar CLADEC. M2a_rel supone que tanto $2 como $0 están en el mismo estado y evolucionaron bajo presión de selección, por lo que esta prueba debe tener dos grados de libertad.
En segundo lugar, probar diferencias significativas entre la rama A y la rama B y al mismo tiempo permitir. Si la rama C es diferente, puede comparar usando la proporcionada anteriormente. El ajuste entre ejecutar CMC con un árbol y ejecutar CMC con un árbol más simple. En este caso, un árbol más simple asignaría las ramas A y B al mismo grupo. debe haber un grado de libertad en esta prueba, como se muestra a continuación:
Cuando hay varias ramas en primer plano en el conjunto de datos: 1) realice varias pruebas y luego establezca una rama de interés como rama en primer plano. cada prueba; 2) realizar solo una prueba y establecer todas las ramas de interés como ramas de primer plano. Entonces, surgirá otra pregunta en este momento. Al realizar múltiples pruebas, ¿deberían eliminarse otras ramas de interés? Probablemente esto dependa del problema biológico específico.
/g/pamlsoftware/c/aVj2opOg7PA
Si la corrección no es significativa, puede elegir la clasificación adjP.
El uso de proporciones gratuitas puede generar errores mayores /g/pamlsoftware/c/2drys0ff7_o.
El estado de un sitio seleccionado positivamente es el estado de la primera secuencia de referencia en la alineación de secuencias múltiples, no el estado de la secuencia de la rama de primer plano. Además, tenga en cuenta que cutdata está establecido en 1.
/g/pamlsoftware/c/ZnPaysiZKbI