Modelo de selección de todo el genoma
Antes de presentar el modelo GS, primero debemos comprender el modelo lineal mixto (MLM). El modelo lineal mixto es un modelo de componentes de varianza. Dado que es un modelo lineal, significa que la relación entre las distintas cantidades es lineal. Se puede aplicar el principio de superposición, es decir, varias cantidades de entrada diferentes actúan sobre la respuesta del sistema. al mismo tiempo, que es igual a varias entradas La suma de las respuestas de las cantidades que actúan solas (Ecuación 1).
?= X es la matriz de diseño de variables independientes de efectos fijos, β es el vector de parámetros de efectos fijos correspondiente a Al mismo tiempo, se deben cumplir las condiciones: E(y)=Xβ, Var(y)=σ 2 I, y obedece a la distribución normal.
Al ser un modelo de efectos mixtos, contiene tanto efectos fijos como efectos aleatorios. El llamado efecto fijo significa que todos los grados o niveles posibles son conocidos y observables, como el sexo, la edad, la raza, etc. El llamado efecto aleatorio se refiere al nivel que puede ocurrir cuando una muestra se selecciona aleatoriamente de la población y es incierta, como efectos aditivos individuales, efectos maternos, etc. (Fórmula 2).
y = , la matriz de varianza y covarianza es la distribución normal μ ~ N(0,G) de G; X es la matriz de correlación de efectos fijos ¿Es decir? ). Al mismo tiempo, se supone que Cov (G, R) = 0, es decir, no existe correlación entre G y R, y la matriz de varianza y covarianza de y se convierte en Var (y) = ZGZ + R. Si Zμ no existe, es un modelo de efectos fijos. Si Xβ no existe, es un modelo de efectos aleatorios.
En el modelo lineal tradicional, además de la relación lineal, la variable respuesta también tiene los supuestos de normalidad, independencia y homogeneidad de varianzas. El modelo lineal mixto no solo conserva el supuesto de normalidad del modelo lineal tradicional, sino que tampoco requiere independencia y homogeneidad de varianzas, ampliando así el ámbito de aplicación y ha sido ampliamente utilizado en la selección del genoma.
C.R. Henderson propuso teóricamente el método estadístico de Mejor Predicción Lineal Insesgada (BLUP) hace mucho tiempo, pero la aplicación fue limitada debido al retraso en la tecnología informática. Hasta mediados de la década de 1970, el desarrollo de la tecnología informática hizo posible aplicar BLUP en la cría. BLUP combina las ventajas del método de mínimos cuadrados. Cuando se conoce la matriz de covarianza, BLUP es un método ideal para analizar los rasgos objetivo del mejoramiento animal y vegetal. El significado de su nombre es el siguiente:
El método BLUP se utilizó originalmente en la cría de animales. El modelo animal tradicional resuelve las ecuaciones del modelo mixto (MME) basándose en la matriz de parentesco (también conocida como matriz A) construida a partir de información genealógica, por lo que se denomina ABLUP. El MME propuesto por Henderson es el siguiente:
En la fórmula, X es la matriz de efectos fijos, Z es la matriz de efectos aleatorios e Y es la matriz de valores de observación. Entre ellos, R y G:
Entre ellos, A es la matriz de parentesco, por lo que la fórmula se puede transformar en:
Se puede transformar aún más en:
Resolviendo el sistema de ecuaciones, calcule Los componentes de la varianza residual y aditiva se pueden utilizar para obtener el valor del efecto del factor fijo (AZUL) y el valor del efecto del factor aleatorio (BLUP).
Como método BLUP tradicional, ABLUP se basa completamente en información genealógica para construir una matriz de parentesco y luego calcular el valor genético. Este método se usó ampliamente en la cría de animales temprana y ahora básicamente no se usa solo.
VanRaden propuso el método GBLUP (Genomic Best Linear insesgado predicción) basado en la matriz G en 2008. La matriz G se construye a partir de todos los marcadores SNP y la fórmula es la siguiente:
GBLUP construye relaciones genómicas mediante la construcción de la Matriz G que reemplaza la matriz de parentesco A construida en base a información genealógica para estimar directamente los valores genéticos individuales.
El proceso de solución GBLUP es el mismo que el método BLUP tradicional, excepto que la construcción de la matriz G es diferente. Además de la matriz G de construcción de relaciones genómicas de VanRaden, existen otros métodos de construcción de la matriz G, pero el método propuesto por VanRaden es el más utilizado. Por ejemplo, el cálculo de la matriz G basado en pesos propuesto por Yang et al.:
El cálculo de la matriz G basado en pedigrí Una matriz propuesta por Goddard et al.:
Actualmente GBLUP se ha utilizado ampliamente en el mejoramiento de animales y plantas, y sus ventajas como su alta eficiencia y robustez siguen siendo populares hoy en día. GBLUP supone que todos los marcadores tienen el mismo efecto en la matriz G, pero en el rango real del genoma solo una pequeña cantidad de marcadores tienen efectos principales y la mayoría de los efectos de los marcadores son pequeños, por lo que GBLUP todavía tiene mucho margen de mejora.
En la cría de animales, por diversas razones, una gran cantidad de individuos con registros genealógicos e información fenotípica no tienen genotipos. El método GBLUP de un solo paso (ssGBLUP) es para resolver el problema de los grupos reproductores. El problema de estimar el valor genético genómico de individuos sin genotipos e individuos con genotipos.
ssGBLUP combina BLUP y GBLUP tradicionales, es decir, integra la matriz de parentesco A y la matriz de relación del genoma G basada en información de pedigrí, y establece una nueva matriz de relación H para estimar simultáneamente genotipos y genotipos. valor de tipo individuos.
Método de construcción de la matriz H:
En la fórmula, w es el factor de ponderación, es decir, la proporción de efectos genéticos poligénicos.
Después de construir la matriz H, el proceso de solución MME es el mismo que el del BLUP tradicional:
Debido a que los individuos genotipados contienen registros genealógicos y datos fenotípicos, ssBLUP tiende a tener un mejor rendimiento. que GBLUP. Alta precisión. Este método se ha convertido en uno de los modelos animales más utilizados en la cría de animales actual. En el fitomejoramiento, a menudo falta información genealógica completa y los genotipos de los individuos de la población pueden determinarse fácilmente, por lo que no se ha utilizado ampliamente.
Si reemplazas la matriz de covariables de parentesco individual en GBLUP con la matriz de relaciones compuesta por marcadores SNP, construyes un modelo y luego predices los individuos, esta es la idea de RRBLUP (Ridge Regression Best Linear Unbiased). Predicción).
¿Por qué no utilizar simplemente el método de mínimos cuadrados? El método de mínimos cuadrados supone que el efecto marcador es un efecto fijo, realiza una regresión en todos los SNP en segmentos y luego agrega los efectos significativos de SNP en cada segmento para obtener el valor de reproducción del genoma individual. Este método sólo considera los efectos de unos pocos SNP importantes, que pueden conducir fácilmente a multilinealidad y sobreajuste.
RRBLUP es un método de mínimos cuadrados modificado que puede estimar los tamaños del efecto de todos los SNP. Este método supone que el efecto del marcador es un efecto aleatorio y obedece a una distribución normal, utiliza un modelo lineal mixto para estimar el valor del efecto de cada marcador y luego suma el efecto de cada marcador para obtener el valor genético estimado individual.
En términos generales, el número de marcadores en los datos del genotipo es mucho mayor que el número de muestras (p>>n). Debido a que RRBLUP se calcula en unidades de etiquetas, su tiempo de ejecución es mayor que el de GBLUP y su precisión es comparable.
GBLUP es un representante del método directo. Utiliza al individuo como efecto aleatorio, la matriz de parentesco construida a partir de la información genética de la población de referencia y la población predicha como matriz de varianza y covarianza, estima la. componentes de varianza a través de un método iterativo, y luego resuelve la mezcla. El modelo obtiene el valor reproductivo estimado del individuo a predecir. RRBLUP es un representante del método indirecto. Primero calcula el valor del efecto de cada marcador, luego acumula los valores del efecto y luego obtiene el valor genético.
La siguiente figura compara las similitudes y diferencias entre los dos métodos:
El método directo estima y el método indirecto estima la suma de los efectos marcadores M. Cuando K=M’M y el efecto marcador g obedece a una distribución normal independiente (como se muestra en la figura anterior), el valor genético estimado por los dos métodos es el mismo, es decir, = M.
El método de selección genómica basado en la teoría BLUP supone que todos los marcadores tienen la misma varianza genética. De hecho, sólo unos pocos SNP tienen un efecto en todo el genoma y están vinculados a QTL que afectan a la mayoría de los SNP. son ineficaces. Cuando asumimos que la varianza del efecto marcador es alguna distribución previa, el modelo se convierte en un enfoque bayesiano. Meuwissen (la persona que propuso GS) también propuso métodos bayesianos comunes, que incluyen principalmente BayesA, BayesB, BayesC, Bayesian Lasso, etc.
BayesA supone que cada SNP tiene un efecto y sigue una distribución normal, y la varianza del efecto sigue una distribución chi-cuadrado inversa escalada. El método BayesA presupone dos parámetros relacionados con la genética, el grado de libertad v y el parámetro de escala S. Introduce el muestreo de Gibbs en la teoría de Markov Chain Monte Carlo (MCMC) para calcular los efectos de los marcadores.
BayesB supone que unos pocos SNP tienen un efecto, y que la varianza del efecto obedece a la distribución chi-cuadrado inversa, y que la mayoría de los SNP no tienen ningún efecto (en línea con la situación real de todo el genoma). La distribución previa de la varianza del efecto del marcador del método BayesB utiliza una distribución mixta y es difícil construir una distribución posterior condicional completa de cada efecto del marcador y varianza. Por lo tanto, BayesB utiliza el muestreo de Gibbs y MH (Metropolis-Hastings) de forma conjunta. muestrear el efecto del marcador y la varianza.
El método BayesB introduce un parámetro π en el proceso de operación. Suponga que la probabilidad de que la varianza del efecto marcador sea 0 es π, y la probabilidad de que obedezca a la distribución chi-cuadrado inversa es 1-π. Cuando π es 1, todos los SNP tienen un efecto, que es equivalente a BayesA. El método BayesB es más preciso cuando la variación genética está controlada por unos pocos QTL que tienen un gran impacto.
El parámetro π en BayesB se establece artificialmente y tendrá un impacto subjetivo en los resultados. BayesB está optimizado por BayesC, BayesCπ, BayesDπ y otros métodos. El método BayesC toma π como parámetro desconocido, supone que obedece a la distribución uniforme de U (0,1) y supone que las variaciones de los efectos de los SNP efectivos son diferentes. El método BayesCπ supone que las varianzas del efecto SNP son las mismas según BayesC y utiliza el muestreo de Gibbs para resolver. El método BayesDπ calcula el parámetro desconocido π y el parámetro de escala S. Se supone que la distribución previa y la distribución posterior de S obedecen a la distribución (1,1) y se pueden muestrear directamente a partir de la distribución posterior.
La siguiente figura ilustra vívidamente la distribución de la varianza del efecto de marcado de diferentes métodos:
Lazo bayesiano (operador de selección y contracción mínima absoluta) supone que la varianza del efecto de marcado obedece a la Distribución normal de distribución exponencial, es decir, distribución de Laplace. La diferencia entre este y BayesA es que el efecto de etiquetado obedece a una distribución diferente. BayesA supone que el efecto de etiquetado obedece a una distribución normal. La distribución de Laplace permite que se produzcan valores máximos o mínimos con mayor probabilidad.
De los diversos métodos bayesianos anteriores se puede ver que el enfoque y la dificultad del método bayesiano radica en cómo hacer suposiciones razonables sobre la distribución previa de los hiperparámetros.
En comparación con el método BLUP, el modelo Bayes a menudo tiene más parámetros para estimar, lo que no solo mejora la precisión de la predicción, sino que también aporta una mayor cantidad de cálculo. MCMC requiere decenas de miles de iteraciones, y cada iteración requiere una reevaluación de todos los valores de los efectos de los marcadores. Este proceso es continuo y no puede paralelizarse, y consume una gran cantidad de tiempo de cálculo, lo que limita su aplicación en prácticas de mejoramiento de animales y plantas. fuertes requisitos urgentes.
Para mejorar la velocidad y precisión de la computación, muchos académicos han optimizado los supuestos y parámetros a priori en el método Bayes y han propuesto fastBayesA, BayesSSVS, fBayesB, emBayesR, EBL, BayesRS, BayesTA, etc. Pero actualmente los métodos bayesianos más utilizados siguen siendo los mencionados anteriormente.
La precisión de la predicción de varios modelos depende en gran medida de si los supuestos del modelo son adecuados para la construcción genética del fenotipo predicho. En términos generales, la precisión del método bayesiano después del ajuste de parámetros es ligeramente mayor que la del método BLUP, pero la velocidad de operación y la robustez no son tan buenas como las de BLUP. Por lo tanto, debemos sopesar los pros y los contras y tomar una decisión razonable en función de nuestras propias necesidades.
Además de los métodos de resolución de parámetros basados en la teoría BLUP y Bayes, la selección del genoma también incluye métodos semiparamétricos (como RKHS, ver el siguiente artículo) y no paramétricos, como el aprendizaje automático (ML).
El aprendizaje automático es una rama de la inteligencia artificial que se centra en predecir individuos no observados (datos no etiquetados) mediante la aplicación de algoritmos altamente flexibles a propiedades (características) y resultados conocidos de los resultados de individuos observados (datos etiquetados). Los resultados pueden ser continuos, categóricos o binarios. En el mejoramiento animal y vegetal, los datos etiquetados corresponden a una población de entrenamiento con genotipos y fenotipos, mientras que los datos no etiquetados corresponden a una población de prueba y las características utilizadas para la predicción son genotipos SNP.
En comparación con los métodos estadísticos tradicionales, los métodos de aprendizaje automático tienen muchas ventajas:
Support Vector Machine (SVM) es un método no paramétrico típico y es un método de aprendizaje supervisado. Puede resolver tanto problemas de clasificación como análisis de regresión. SVM se basa en el principio de minimización del riesgo estructural y tiene en cuenta la complejidad del ajuste del modelo y las muestras de entrenamiento, especialmente cuando no sabemos lo suficiente sobre nuestros propios datos de población, SVM puede ser un método alternativo para la predicción del genoma.
La idea básica de SVM es resolver el hiperplano de separación que puede dividir correctamente el conjunto de datos de entrenamiento y tener el intervalo geométrico más grande. En la regresión del vector de soporte (SVR), el error de aproximación se suele utilizar en lugar del margen entre el hiperplano de separación óptimo y el vector de soporte como en SVM. Suponiendo que ε es una función de pérdida lineal en la región insensible, cuando los valores medidos y predichos son menores que ε, el error es igual a cero. El objetivo de SVR es minimizar simultáneamente el riesgo empírico y la norma cuadrática de las ponderaciones. Es decir, el hiperplano se estima minimizando el riesgo empírico.
La Figura 1 a continuación compara la diferencia entre regresión (Figura A) y clasificación (Figura B) en SVM. En la fórmula, ξ y ξ* son variables de holgura, C es una constante definida por el usuario, W es la norma del vector de peso y ? representa el mapeo del espacio de características.
Cuando se utiliza SVM para el análisis predictivo, grandes conjuntos de datos de alta dimensión aportan una gran complejidad a los cálculos. La aplicación de funciones del núcleo puede simplificar enormemente el producto interno, resolviendo así la maldición de la dimensionalidad. Por lo tanto, la selección de la función del núcleo (que debe considerar las características de distribución de las muestras de entrenamiento) es la clave para la predicción de SVM. Actualmente, las funciones del núcleo más utilizadas son: función del núcleo lineal, función del núcleo gaussiano (RBF), función del núcleo polinomial, etc. Entre ellos, RBF tiene una amplia adaptabilidad y se puede aplicar a cualquier distribución de muestras de entrenamiento (con parámetros de ancho apropiados). Aunque a veces provoca problemas de sobreajuste, sigue siendo la función del núcleo más utilizada.
Ensemble Learning es también uno de los algoritmos más comunes en el aprendizaje automático. Aprende a través de una serie de alumnos y utiliza ciertas reglas para integrar los resultados del aprendizaje para lograr mejores resultados que un solo alumno. En términos sencillos, se trata de un grupo de alumnos débiles combinados en un alumno fuerte. En el campo de GS, Random Forest (RF) y Gradient Boosting Machine (GBM) son dos algoritmos de aprendizaje integrados ampliamente utilizados.
RF es un método de conjunto basado en árboles de decisión, que es un clasificador que contiene múltiples árboles de decisión. En la predicción del genoma, la RF, al igual que la SVM, se puede utilizar como modelo de clasificación o como modelo de regresión. Cuando se utiliza para clasificación, tenga en cuenta que los individuos de la población deben dividirse de antemano según sus valores fenotípicos. El algoritmo RF se puede dividir en los siguientes pasos:
Finalmente, RF combinará la salida del árbol de clasificación o árbol de regresión para la predicción. En la clasificación, las clases no observadas se predicen contando los votos (normalmente utilizando un voto por árbol de decisión) y asignando la clase con el mayor recuento de votos. En regresión, promediando la salida de ntree.
Hay dos factores importantes que afectan los resultados del modelo RF: uno es el número de covariables muestreadas aleatoriamente en cada nodo (mtry, el número de SNP). Al construir un árbol de regresión, mtry tiene como valor predeterminado p/3 (p es el número de predicciones para construir el árbol). Al construir un árbol de clasificación, mtry es [falló la carga de la imagen...(image-10f518-1612450396027)]; el segundo es el número de árboles de decisión. Muchos estudios han demostrado que tener más árboles no siempre es mejor y que plantar moreras de papel también requiere mucho tiempo. En la aplicación de GS al mejoramiento vegetal, el ntree de RF generalmente se establece entre 500 y 1000.
Cuando GBM se basa en un árbol de decisión, es un árbol de decisión de impulso de gradiente (GBDT). Al igual que RF, también contiene múltiples árboles de decisión. Pero hay muchas diferencias entre los dos. La mayor diferencia es que RF se basa en el algoritmo de ensacado, lo que significa que vota sobre múltiples resultados o simplemente calcula el promedio para seleccionar el resultado final. GBDT se basa en el algoritmo de impulso, que genera un alumno débil en cada paso de iteración para compensar las deficiencias del modelo original. GBM maneja varias tareas de aprendizaje configurando diferentes funciones de pérdida.
Aunque muchos estudios han intentado aplicar una variedad de algoritmos clásicos de aprendizaje automático a la predicción del genoma, la precisión mejorada sigue siendo limitada y requiere mucho tiempo.
Entre los innumerables algoritmos de aprendizaje automático, ningún método mejora universalmente la previsibilidad, y las diferentes aplicaciones y sus métodos y parámetros óptimos varían. En comparación con los algoritmos clásicos de aprendizaje automático, el aprendizaje profundo (DL) puede ser una mejor opción para la predicción del genoma en el futuro.
Los algoritmos tradicionales de aprendizaje automático, como SVM, son generalmente modelos superficiales. Además de las capas de entrada y salida, el aprendizaje profundo también contiene múltiples capas ocultas. La profundidad de la estructura del modelo explica el significado de su nombre. La esencia de DL es aprender funciones más útiles mediante la construcción de un modelo de aprendizaje automático con muchas capas ocultas y datos de entrenamiento masivos, lo que en última instancia mejora la precisión de la clasificación o predicción. El proceso de modelado del algoritmo DL se puede dividir simplemente en los siguientes tres pasos:
En el campo de GS, se han estudiado más algoritmos DL, incluido el perceptrón multicapa (MPL) y la red neuronal convolucional (. Red neuronal convolucional, CNN) y redes neuronales recurrentes (Recurrent Neural Networks, RNN), etc.
MLP es un modelo de red neuronal artificial (ANN) feedforward que asigna múltiples conjuntos de datos de entrada a un único conjunto de datos de salida. MLP incluye al menos una capa oculta, como se muestra en la Figura 2 a continuación. Además de una capa de entrada y una capa de salida, también incluye 4 capas ocultas. Cada capa está conectada a los nodos de la capa anterior y se les asignan pesos diferentes (w). ), y finalmente transformado a través de la función de activación para asignar la entrada a la salida.
CNN es un tipo de red neuronal de retroalimentación que contiene cálculos convolucionales y tiene una estructura profunda. Por lo general, tiene capacidades de aprendizaje de representación y puede realizar una clasificación invariante de traducción de la información de entrada de acuerdo con su estructura jerárquica. La capa oculta de CNN incluye tres tipos: capa convolucional, capa de agrupación y capa completamente conectada. Cada tipo tiene funciones diferentes. Por ejemplo, la función principal de la capa convolucional es extraer características de los datos de entrada. realiza la selección de características y el filtrado de información en la salida del mapa de características mediante la extracción de características de la capa convolucional. La capa completamente conectada es similar a la capa oculta en ANN y generalmente está ubicada al final de la capa oculta de CNN y solo transmite señales a la capa oculta. capa conectada. La estructura de CNN se muestra en la Figura 3 a continuación.
Cabe señalar que el aprendizaje profundo no es la panacea. El requisito previo para utilizar DL es tener un conjunto de datos de entrenamiento suficientemente grande y de alta calidad y, según la investigación de GS en animales y plantas, algunos algoritmos de DL no tienen ventajas obvias en comparación con los métodos tradicionales de predicción del genoma. Sin embargo, existe evidencia consistente de que los algoritmos DL pueden capturar patrones no lineales de manera más efectiva. Por lo tanto, DL puede realizar reproducción asistida integrando modelos tradicionales de GS basados en datos de diferentes fuentes. En resumen, frente a los datos genéticos masivos en el futuro, la aplicación de DL será cada vez más importante.
Los anteriores son modelos de predicción comunes en GS, y los diferentes métodos de clasificación pueden ser diferentes. A continuación se ofrece una breve introducción a los métodos más importantes que no se mencionan anteriormente, algunos de los cuales son extensiones de las tres categorías de métodos anteriores.
La reproducción del espacio Kernel Hilbert (RKHS) es un método semiparamétrico típico. Utiliza la función del núcleo gaussiano para ajustarse al siguiente modelo:
El modelo RKHS se puede resolver utilizando el muestreador de Gibbs del marco bayesiano o el modelo lineal mixto.
GBLUP sigue siendo un método ampliamente utilizado en el mejoramiento de animales y plantas, y supone que todos los marcadores tienen el mismo efecto. Sin embargo, en situaciones reales, cualquier marcador no relacionado con el rasgo objetivo utilizado para estimar la matriz de relaciones genéticas diluirá el efecto de QTL. Muchos estudios lo han mejorado, con varias ideas principales:
Siguiendo las ideas anteriores, el método sBLUP (Settlement of Kinship Under Progressively Exclusive Relationship BLUP, SUPER BLUP) refina aún más TABLUP en unos pocos rasgos controlados por genes, como que la matriz de relaciones genotípicas se construye utilizando únicamente marcadores asociados con el rasgo.
Si desea considerar el impacto de la estructura del grupo en la matriz de parentesco, puede agrupar a los individuos según la similitud de sus relaciones genéticas y luego usar los grupos comprimidos como covariables para reemplazar a los individuos originales. y las relaciones de parentesco de los individuos dentro del grupo son las mismas. Por lo tanto, al construir una matriz de relaciones genómicas, el valor del efecto genético del grupo se puede usar para reemplazar el valor individual, y el grupo correspondiente al individuo se usa para la predicción. Esto es cBLUP (BLUP comprimido).
Todas las ideas anteriores mencionan la integración de sitios verificados y recién descubiertos en el modelo. La fuente más común es, naturalmente, el Estudio de Asociación de Todo el Genoma (GWAS). Existe una conexión natural entre GS y GWAS. Al incorporar los sitios de asociación importantes de GWAS a GS, el beneficio directo es que puede mantener la capacidad de predicción durante múltiples generaciones y el beneficio indirecto es que puede aumentar la cantidad de mutaciones verificadas.
La siguiente figura compara varios métodos de predicción del genoma asistida por GWAS. a representa el método de selección asistida por marcadores moleculares (MAS), que solo utiliza algunos sitios de efecto importantes; b representa el método GS clásico, que utiliza todos los marcadores y tiene el mismo efecto marcador c asigna marcadores según el peso; correlacionar marcadores Se trata como un efecto fijo; e trata el marcador significativamente asociado como otro efecto aleatorio (con su propio núcleo derivado) f divide el cromosoma en segmentos y la matriz G construida a partir de cada segmento se asigna a un efecto aleatorio diferente;
Los resultados de la predicción del genoma asistida por GWAS serán más complicados. Simplemente considerar la señal de asociación en el modelo no necesariamente mejora la precisión. El rendimiento específico debe estar relacionado con la construcción genética del rasgo.
GS dispone de dos estrategias diferentes para estimar los efectos genéticos. Una es centrarse en estimar los valores genéticos, transmitiendo efectos aditivos de padres a hijos. Los efectos no aditivos (como los efectos dominantes y epistáticos), por otro lado, están relacionados con un genotipo específico y no pueden heredarse directamente. Al estimar los componentes de la varianza, los efectos no aditivos a menudo se tratan como ruido junto con efectos ambientales aleatorios. Otra estrategia se centra en efectos tanto aditivos como no aditivos y se utiliza a menudo en la exploración del vigor híbrido. Generalmente se piensa que el vigor híbrido es el resultado de efectos dominantes y epistáticos, por lo que si los efectos no aditivos son significativos y se ignoran, las estimaciones genéticas estarán sesgadas.
La utilización del vigor híbrido es un tema de investigación importante en el fitomejoramiento, especialmente en cultivos alimentarios básicos como el arroz y el maíz. La incorporación de efectos genéticos no aditivos al modelo GS para la predicción de híbridos es también uno de los temas candentes actuales en la predicción del genoma en el mejoramiento de cultivos.
Por supuesto, la composición de los efectos de la heterosis también cambia con los rasgos, y la predicción genómica de diferentes rasgos debe combinarse con la identificación de sitios QTL heterogéneos. Dado que la capacidad de combinación general GCA (reflejo de efectos aditivos) y la capacidad de combinación especial SCA (reflejo de efectos no aditivos) pueden provenir de diferentes efectos genéticos, GCA y SCA deben considerarse respectivamente al predecir el híbrido F 1. El modelo GCA puede basarse en GBLUP, centrándose en la construcción de una matriz de parentesco genotípico. Hay dos métodos para el modelo SCA: uno es integrar el panel de sitios SNP heterogéneos en el modelo GBLUP como un efecto fijo; el otro es utilizar modelos no lineales, como métodos bayesianos y de aprendizaje automático. Se ha informado que el aprendizaje automático y los modelos estadísticos generales son relativamente consistentes para rasgos con heredabilidad media y baja en modelos aditivos. Pero en modelos no aditivos, los métodos de aprendizaje automático funcionan mejor.
Los modelos GS tradicionales a menudo solo se centran en un único rasgo fenotípico en un único entorno, ignorando las interrelaciones entre múltiples rasgos o múltiples entornos en situaciones reales. Algunos estudios también pueden mejorar la precisión de las predicciones genómicas modelando múltiples rasgos o múltiples entornos simultáneamente. Tomando el modelo de múltiples rasgos (MT) como ejemplo, el modelo multivariado (MV) se puede expresar mediante la siguiente fórmula:
La selección de múltiples rasgos se usa generalmente para lograr un cierto grado de concordancia entre los rasgos. . construcción genética, es decir, están genéticamente relacionados. Es particularmente útil para rasgos con baja heredabilidad (asociados con rasgos con alta heredabilidad) o rasgos que son difíciles de medir.
Las condiciones ambientales de los cultivos no son tan fáciles de controlar como las de los animales, y la mayoría de los rasgos son cuantitativos y se ven fácilmente afectados por el medio ambiente. Los experimentos multiambientales (ME) han desempeñado un papel importante, y la interacción entre el genotipo y el entorno (Genotipo por entorno, G × E) es también el foco de la selección del genoma actual.
Además de GBLUP, los modelos multivariables también pueden basarse en la regresión lineal del marco bayesiano o en métodos de aprendizaje automático no lineales.
Sabemos que los genes finalmente pueden reflejarse en características fenotípicas después de la transcripción, la traducción y una serie de regulaciones, que solo pueden reflejar el potencial de eventos fenotípicos hasta cierto punto. Con el desarrollo de la tecnología multiómica, la integración de datos multiómicos para la predicción del genoma también es una dirección importante en la investigación actual de GS.
En el fitomejoramiento, además del genoma, la transcriptómica y la metabolómica son los dos grupos ómicos que actualmente se estudian con relativa frecuencia en GS. El transcriptoma correlaciona y predice los niveles de expresión genética con rasgos, mientras que el metaboloma correlaciona y predice el contenido de moléculas pequeñas que regulan fenotipos con rasgos. Para algunos rasgos específicos, la capacidad de predicción puede mejorarse.
La mejor manera es integrar los datos de cada grupo en el modelo simultáneamente, pero esto aumentará considerablemente la complejidad del modelo.
La precisión de la determinación fenotípica afecta directamente a la construcción del modelo. Para algunos rasgos complejos, obviamente ya no es aconsejable registrarlos únicamente mediante observación visual, y la investigación fenotípica requiere mucho tiempo, es laboriosa y costosa. Por lo tanto, el fenotipado de alto rendimiento también es una dirección importante para el desarrollo de GS. El alcance del fenotipo es muy amplio. Cuando los rasgos individuales no se pueden medir fácilmente, también podemos utilizar datos multiómicos, como el proteoma, el metaboloma y otros datos, como sustituto.
Teniendo en cuenta las cuestiones de rentabilidad, la tecnología multiómica aún se encuentra en la etapa de investigación en el mejoramiento animal y vegetal, pero representa una dirección de aplicación futura.