¿Cuáles son los recursos bioinformáticos en línea?
La "-informática" en bioinformática se refiere al proceso de extracción y obtención de conocimiento a partir de datos masivos, como se muestra en la siguiente figura. En este proceso estará involucrada la gestión de datos, operaciones de datos, minería de datos y modelado y simulación. La parte de gestión de datos se refiere principalmente a la base de datos y la parte de operación de datos se refiere principalmente a varias herramientas de software para información biológica. Estas dos partes son recursos muy importantes para la investigación en bioinformática y también son los conocimientos básicos que los estudiantes necesitan saber para comenzar. A continuación se muestra una breve introducción a estos recursos. (Este artículo está basado en el vídeo del Curso Abierto de Bioinformática de la Universidad de Pekín y las imágenes son de capturas de pantalla del vídeo)
Según las diferentes características, estos recursos se pueden dividir en diferentes categorías. Por ejemplo, según la naturaleza de los datos, la base de datos se puede dividir en base de datos de datos primaria y base de datos de datos secundaria. Por ejemplo, las herramientas de software se pueden dividir en programas independientes y servidores web según si el software es una herramienta independiente o un servidor web.
Según la categoría del editor, se puede dividir en recursos centralizados y recursos personales. Los recursos centralizados relativamente grandes incluyen principalmente navegadores de genoma NCBI (Centro Nacional de Información Biotecnológica), EBI (Instituto Europeo de Bioinformática) y UCSC (Universidad de California, Santa Cruz). Estas tres bases de datos más grandes y otros recursos de datos bioinformáticos se presentarán a continuación.
1 Introducción. NCBI
Base de datos del genoma NCBI:
La mayoría de los genomas secuenciados se conservan y se han secuenciado 1000 genomas.
NCBI-Nucleotide/Protein (RefSeq):
Secuencias de referencia tras integrar diferentes versiones. Entre ellos, NM_* representa la secuencia de ácido nucleico y NP_* representa la secuencia de proteína. Entre ellos, el ácido nucleico proporciona información como número de identificación, nombre, especie, características, región codificante y secuencia. Las proteínas también dan información sobre los intervalos funcionales.
Genes NCBI:
Integración de vías, variación, fenotipo y otra información en unidades genéticas.
Para genes humanos, GeneCards tiene mejores anotaciones (expresión, interacción, proteínas homólogas, función, variación genética, etc.) que NCBI en genes y proteínas humanos.
NCBI-SLA
La base de datos de secuencia corta de la tecnología de secuenciación de próxima generación duplicará los datos cada cinco meses.
NCBI-Taxonomía
Árbol taxonómico de todas las especies para las que se ha secuenciado al menos un gen, y se han secuenciado 10 de todas las especies descritas.
NCBI Public Medicine
Para revisión de la literatura.
NCBI Grid
(Títulos de materias médicas) Una voz controlada utilizada para indexar artículos en un léxico terminológico estructurado publicado.
NCBI-Mi NCBI
Para las palabras clave de interés, después de configurar NBCI, se enviarán documentos relevantes cada semana, lo cual es muy útil para el seguimiento de documentos en proyectos.
Explosión del NCBI
Las herramientas más famosas del NCBI, dos artículos sobre BLAST, han sido citados más de 42.000 veces. Las diferentes versiones de BLAST incluyen:
En línea: NCBI Explosion
Versión independiente: BLAST
Página web integrada: wwwblast
2. Introducción a ebi
La siguiente tabla enumera algunos de los recursos de EBI:
EBI-Ensemble:
Los recursos entre NCBI y UCSC integran diferencias en recursos de muchas especies. Los tipos de cantidad en Ensembl incluyen:
EBI-UniProtKB
El recurso universal de proteínas (UniProt) es un recurso integral para datos de secuencias y anotaciones de proteínas.
(UniProt Knowledge Base (UniProtKB) es un centro central para recopilar información funcional de proteínas con anotaciones precisas, consistentes y ricas.
)
UniProtKB -Swiss-Prot (corrección manual)
UniProtKB -TrEMBL (sin revisión manual)
EBI-intact
Intermolecular interacciones
EBI-Krusta Omega
Alineamiento de secuencias múltiples
EBI inter proscan
Ingrese una secuencia, vea si contiene una región de la proteína cuya función se conoce actualmente.
3 Introducción a la UCSC
Tomando como coordenada el genoma. Contiene muchas pistas que incluyen SNP, ARNm, EST escindida, EST no escindida, números de paso alto y grupo de pases.