¿Cuáles son las aplicaciones de la bioinformática? 1. Secuenciación y comparación de secuencias)\x0d\ \La secuenciación es la base y principal fuente de datos de la bioinformática, que pueden ser datos humanos u otros datos. El problema básico del alineamiento de secuencias es comparar la similitud o disimilitud de dos o más secuencias simbólicas. Desde el significado original de biología, este problema incluye los siguientes significados: reconstruir la secuencia completa de ADN a partir de fragmentos de secuencia superpuestos; determinar el almacenamiento de mapas físicos y genéticos a partir de datos de sonda en diversas condiciones experimentales, atravesar y comparar secuencias de ADN en la base de datos, comparar la similitud. de dos o más secuencias, buscar secuencias y subsecuencias relacionadas en bases de datos, descubrir el patrón de generación continua de nucleótidos, descubrir los componentes de información en secuencias de proteínas y ADN, comparar las características biológicas de las secuencias de ADN, como la inserción local, la eliminación ( los dos primeros se denominan indel) y sustitución. La función objetivo de la secuencia obtiene la suma ponderada de distancia mínima o la suma máxima de similitud de los conjuntos de mutaciones entre secuencias. Los métodos de alineación incluyen alineación global, alineación local, penalización por brecha generacional, etc. Los algoritmos de programación dinámica se utilizan a menudo para comparar dos secuencias y son adecuados para longitudes de secuencia pequeñas, pero no son adecuados para secuencias genéticas masivas (como secuencias de ADN humano de hasta 109 pb). Incluso si la complejidad del algoritmo es lineal, difícilmente funcionará. Por lo tanto, la introducción de métodos heurísticos es inevitable. Los famosos algoritmos BALST y FASTA y los métodos de mejora correspondientes se basan en esta premisa. \x0d\x0d\2. El problema básico de la comparación y predicción de la estructura de las proteínas es comparar la similitud o disimilitud de las estructuras espaciales de dos o más moléculas de proteínas. La estructura y función de las proteínas están estrechamente relacionadas. Generalmente se cree que las proteínas con funciones similares generalmente tienen estructuras similares. Las proteínas son cadenas largas compuestas de aminoácidos, cuya longitud varía entre 50 y 1000 ~ 3000 AA (aminoácidos). Las proteínas tienen diversas funciones, como enzimas, almacenamiento y transporte de sustancias, transmisión de señales, anticuerpos, etc. Generalmente se cree que la secuencia de aminoácidos determina inherentemente la estructura tridimensional de una proteína. Las proteínas tienen cuatro estructuras diferentes. Las razones para estudiar la estructura y la predicción de las proteínas son las siguientes: en medicina podemos comprender las funciones de los organismos, podemos encontrar objetivos para acoplar medicamentos, en agricultura podemos obtener ingeniería genética de mejores cultivos y en la industria podemos Puede utilizar la síntesis de enzimas. La razón para comparar directamente las estructuras de las proteínas es que la estructura tridimensional de las proteínas es más estable durante la evolución que la estructura primaria. Al mismo tiempo, también contiene más información que la secuencia AA. La premisa para estudiar la estructura tridimensional de las proteínas es que la secuencia interna de aminoácidos corresponde a la estructura tridimensional (lo que puede no ser necesariamente cierto). Físicamente se puede explicar por la energía mínima. Predecir la estructura de proteínas desconocidas observando y resumiendo las reglas estructurales de proteínas con estructuras conocidas. Los métodos de modelado de homología y subprocesamiento entran en esta categoría. El modelado de homología se utiliza para encontrar estructuras de proteínas con alta similitud (más del 30% de los mismos aminoácidos), y este último se utiliza para comparar diferentes estructuras de proteínas en familias evolutivas. Sin embargo, el estado actual de la investigación sobre la predicción de la estructura de las proteínas está lejos de satisfacer las necesidades reales. \x0d\3. Investigación sobre identificación de genes y análisis de regiones no codificantes. \x0d\x0d\El problema básico de la identificación de genes es identificar correctamente el rango y la posición exacta del gen en la secuencia del genoma dada una secuencia del genoma. La región no codificante está compuesta de intrones, que generalmente se descartan después de que se forma la proteína. Sin embargo, desde un punto de vista experimental, si se elimina la región no codificante, es obvio que la secuencia de ADN, como lenguaje genético. , está incluido en la región codificante e implícito en la región no codificante en la secuencia. Actualmente no existen pautas generales para analizar secuencias de ADN en regiones no codificantes. En el genoma humano, no todas las secuencias están codificadas, es decir, algún tipo de plantilla proteica. La parte codificada solo representa del 3 al 5% de la secuencia genética humana total. Evidentemente, es impensable buscar manualmente una secuencia genética tan grande. Los métodos para detectar regiones codificantes incluyen medir la frecuencia de codones en regiones codificantes, cadenas de Markov de primer y segundo orden, ORF (marcos de lectura abiertos), identificación de promotores, HMM (modelo oculto de Markov) y GENSCAN, alineación de empalme, etc. X0d\\x0d\4. Evolución molecular y genómica comparada\x0d\\x0d\La evolución molecular utiliza las similitudes y diferencias de la misma secuencia de genes en diferentes especies para estudiar la evolución de los organismos y construir un árbol evolutivo. Esto se puede hacer utilizando las secuencias de ADN o secuencias de aminoácidos que codifican, o incluso comparando las estructuras de proteínas relacionadas. La premisa es que razas similares son genéticamente similares. A través de la comparación, puedes descubrir qué son iguales y qué son diferentes entre las diferentes razas.
Los primeros métodos de investigación a menudo utilizaban factores externos como el tamaño, el color de la piel, el número de extremidades, etc. como base de la evolución. En los últimos años, con la finalización de muchas tareas de secuenciación del genoma de organismos modelo, las personas pueden estudiar la evolución molecular desde la perspectiva de todo el genoma. Al emparejar genes de diferentes razas, generalmente tenemos que enfrentarnos a tres situaciones: Ortólogos. Genes parálogos: genes de la misma raza con funciones diferentes; genes heterólogos: genes que se transmiten entre organismos a través de otros medios, como genes inyectados por virus. Un método comúnmente utilizado en este campo es construir un árbol filogenético, a través de métodos basados en características (es decir, las posiciones específicas de las bases de aminoácidos en secuencias de ADN o proteínas) y distancias (puntuaciones de alineación), así como algunos métodos de agrupamiento tradicionales ( como la UPGMA). \x0d\5, ensamblaje contig\Según la tecnología de secuenciación actual, cada reacción solo puede detectar 500 o más pares de bases. Por ejemplo, los genes humanos se miden utilizando el método de la escopeta, que requiere una gran cantidad de secuencias cortas, todas formando cóntigos. El proceso de empalmarlos gradualmente para formar contigs más largos hasta obtener una secuencia completa se llama ensamblaje de contig. La superposición de conjuntos de secuencias es un problema NP-completo. \x0d\6. El origen del código genético\x0d\La investigación general sobre el código genético cree que la relación entre codones y aminoácidos fue causada por un evento accidental en la historia de la evolución biológica, y se ha fijado en el mismo ancestro. de los organismos modernos hasta ahora. A diferencia de esta teoría de la "congelación", la optimización selectiva se propuso por separado. La química y la historia son tres teorías que explican el código genético. Con la finalización de diversas tareas de secuenciación del genoma biológico, se han proporcionado nuevos materiales para estudiar el origen del código genético y probar la autenticidad de las teorías anteriores. \x0d\ x0d\7. Diseño de fármacos basado en la estructura\x0d\Uno de los propósitos de la ingeniería genética humana es comprender la estructura, función, interacción y diversas enfermedades humanas de los aproximadamente 654,38 millones de proteínas del cuerpo humano. Busque una variedad de opciones de tratamiento y prevención, incluidos medicamentos. El diseño de fármacos basado en la estructura de macromoléculas biológicas y moléculas pequeñas es un campo de investigación extremadamente importante en bioinformática. Para inhibir la actividad de determinadas enzimas o proteínas, podemos utilizar algoritmos de disposición molecular para diseñar moléculas inhibidoras como fármacos candidatos en la computadora basándose en la estructura terciaria conocida de la proteína. El objetivo de este campo es descubrir nuevos fármacos genéticos que tendrán grandes beneficios económicos. \x0d\ 8. Modelado y simulación de sistemas biológicos\x0d\Con el desarrollo de tecnología experimental a gran escala y la acumulación de datos, estudiar y analizar sistemas biológicos desde los niveles global y sistémico y revelar sus reglas de desarrollo se ha convertido en otro punto de investigación en el mundo posgenómico. era - biología de sistemas. Su contenido de investigación actual incluye simulación de sistemas biológicos (CurrOpinRheumatol, 2007, 463-70), análisis de estabilidad del sistema (dinámica no lineal Spscholliffesci, 2007, 413-33) y análisis de robustez del sistema (ernstscheringresresfoundworkshop, 2007, 69-88). Los lenguajes de modelado representados por SBML (Bioinformatics, 2007, 1297-8) se han desarrollado rápidamente, incluidas redes booleanas (PLoSComputBiol, 2007, e163) y ecuaciones diferenciales (MolBiolCell, 2004, 3841-62). 2007, 3262-92) y sistemas de eventos dinámicos discretos (Bioinformatics, 2007, 336-43) se han aplicado al análisis de sistemas. Muchos modelos se basan en métodos de modelado de sistemas físicos como circuitos, y muchos estudios intentan resolver la complejidad del sistema a partir de ideas de macroanálisis como el flujo de información, la entropía y el flujo de energía (Anal Quant Cytol Histol, 2007, 296-308 ). Por supuesto, llevará mucho tiempo establecer modelos teóricos de sistemas biológicos. A pesar del aumento masivo de datos de observación experimentales, los datos necesarios para la identificación de modelos de sistemas biológicos superan con creces la capacidad actual de producción de datos. Por ejemplo, para los datos de chips de series temporales, la cantidad de puntos de muestreo no es suficiente para utilizar los métodos tradicionales de modelado de series temporales, y el enorme costo experimental es la principal dificultad en el modelado del sistema actual. Los métodos de descripción y modelado de sistemas también requieren un desarrollo pionero. \x0d\9. La investigación sobre métodos técnicos de bioinformática\x0d\La bioinformática no es simplemente una simple combinación de conocimientos biológicos y una simple aplicación de conocimientos en matemáticas, física, ciencias de la información y otras disciplinas. Los datos masivos y los antecedentes complejos han llevado al rápido desarrollo del aprendizaje automático, el análisis de datos estadísticos y la descripción de sistemas en el contexto de la bioinformática.