¿Es la era del big data un arma de doble filo?
El 20 de febrero, Li Jinhua, profesor, doctor y vicedecano de la Escuela de Ciencia de Datos e Ingeniería de Software de la Universidad de Qingdao, dio una conferencia titulada Compartir sobre el tema. de "Investigación de Aplicaciones y Práctica de Big Data y Bioinformática". Habló sobre los antecedentes y trabajos de investigación científica relacionados en el campo de big data (trabajos de enseñanza e investigación sobre big data en bioinformática).
Palabras clave:? ¿APLICACIÓN de la era del CIO? Microconferencia
El 20 de febrero, Li Jinhua, profesor, doctor y vicedecano de la Escuela de Ciencia de Datos e Ingeniería de Software de la Universidad de Qingdao, dio una conferencia titulada "Aplicación de Big Data y Bioinformática" en el Columna de microconferencias de la aplicación CIO Times Intercambio sobre el tema "Investigación y práctica". Habló sobre los antecedentes y trabajos de investigación científica relacionados en el campo de big data (trabajos de enseñanza e investigación sobre big data en bioinformática).
1. Antecedentes relacionados
(1) Antecedentes de la bioinformática
Como todos sabemos, la bioinformática estuvo acompañada por el proyecto del genoma humano a finales de los años 1980. disciplina interdisciplinaria deformada que surgió desde su lanzamiento. Mediante la adquisición, procesamiento, almacenamiento, recuperación y análisis de datos experimentales biológicos, se puede explicar el significado biológico de los datos. En la actualidad, el principal impulsor del desarrollo de la bioinformática proviene de la biología molecular, y la investigación en bioinformática se centra principalmente en el almacenamiento, clasificación, recuperación y análisis de secuencias de nucleótidos y aminoácidos. Por lo tanto, la bioinformática actual se puede definir de manera estricta como un campo interdisciplinario que aplica la informática y las matemáticas a la adquisición, procesamiento, almacenamiento, clasificación, recuperación y análisis de información de macromoléculas biológicas para comprender el significado biológico de esta información de macromoléculas biológicas. una asignatura que presta igual atención a conceptos teóricos y aplicaciones prácticas.
El surgimiento y desarrollo de la bioinformática ha superado los 30 años. El Proyecto Genoma Humano de EE. UU. define la informática genómica como un área temática que incluye todos los aspectos de la adquisición, procesamiento, almacenamiento, distribución, análisis e interpretación de la información genómica. Desde el lanzamiento del Proyecto Genoma Humano en los Estados Unidos en 1990, las pruebas genómicas de humanos y organismos modelo se han desarrollado rápidamente, y las pruebas genéticas completas y el trabajo en unas 40 especies de organismos se han completado antes de lo previsto. Hasta ahora, el número total de secuencias de ADN registradas en GeneBank sólo en Estados Unidos ha superado los 7 mil millones de pares de bases. Además, hasta ahora se ha medido la estructura espacial de más de 10.000 proteínas con diferentes resoluciones. Se han establecido más de un millón de bases de datos EST basadas en pruebas de secuencia de ADNc, y se han derivado y organizado más de 5000 bases de datos en base a estos datos.
Todos ellos constituyen un océano de datos biológicos. Esta rápida y masiva acumulación de datos científicos no tiene precedentes en la historia del desarrollo científico, pero los datos no son iguales a la información y el conocimiento. Por supuesto que es la fuente de información y conocimiento, la clave está en cómo extraerlo. El conocimiento humano está creciendo muy lentamente en comparación con el crecimiento exponencial de los datos biológicos. Por un lado, hay una gran cantidad de datos y, por otro, existe el deseo de adquirir nuevos conocimientos en medicina, medicina, agricultura, medio ambiente, etc., para ayudar a las personas a mejorar su entorno y su calidad de vida. Esto constituye una gran contradicción. Esta contradicción ha dado lugar a una nueva disciplina interdisciplinaria, que es la bioinformática.
La investigación de big data en informática tiene como objetivo principal analizar datos multiómicos masivos, lo que brinda oportunidades sin precedentes para las ciencias biológicas y es de gran importancia en el estudio de funciones genéticas, mecanismos de enfermedades, medicina de precisión, etc. La escala, la diversidad, la alta velocidad y otras características de los big data han planteado nuevos desafíos a la bioinformática. En informática de datos, existe una necesidad urgente de resolver la demanda elástica de recursos informáticos en laboratorios pequeños y medianos. En términos de análisis de datos, existe una necesidad urgente de integrar sistemas de análisis multiómicos para resolver problemas biológicos. La falta de herramientas biológicas adecuadas es el principal obstáculo en el campo de las ciencias de la vida en la era del big data.
(2) Antecedentes de investigación en bioinformática de la Universidad de Qingdao
1 En 2009, el Laboratorio Estatal Clave de Ingeniería de Software de la Universidad de Wuhan celebró una escuela de verano en Qingdao. Esta es la primera vez que los académicos occidentales mencionan la investigación interdisciplinaria en biología computacional, que incluye principalmente la secuenciación de genes y la visualización de big data biológicos.
Después de 2.2011, la Universidad de Qingdao y el Instituto BGI de Shenzhen establecieron conjuntamente la Clase de Innovación BGI de la Universidad de Qingdao para cultivar los mejores talentos innovadores en los campos de la biogenética y la bioinformática en la era del big data. Un mes después de la inscripción de los estudiantes universitarios, se seleccionan 30 estudiantes entre más de 9.000 especialidades diferentes.
De acuerdo con los requisitos de base sólida, amplio calibre, integralidad e internacionalización, existen dos módulos optativos en la etapa de curso básico y curso profesional, uno es examen médico y el otro es procesamiento de información.
3.2016 Cooperó con profesores de la Facultad de Medicina de la Universidad de Qingdao y obtuvo títulos de maestría en bioinformática en dos disciplinas. Direcciones de investigación: análisis de secuencias y genómica, investigación y desarrollo de fármacos, integración de redes biológicas, extracción y análisis de datos (principalmente en el campo de aplicaciones biológicas) e investigación de metodología de software bioinformático.
II. Principales contenidos, principales temas y tecnologías clave de la investigación en bioinformática
(1) Principales contenidos de la investigación en bioinformática
1.
La genómica contiene la información básica necesaria para formar y mantener un organismo vivo, que se traduce en fenómenos de la vida real a través de diversas reacciones biológicas moleculares en las células. Una parte del genoma codifica proteínas y ARN, y otra parte regula la expresión de estas macromoléculas. Las proteínas y el ARN expresados se pliegan en estructuras tridimensionales altamente específicas, y estas funciones se llevan a cabo en lugares específicos del cuerpo. Muchos detalles de estos procesos se revelan en los laboratorios de investigación de biología molecular, formando una gran cantidad de datos y almacenados en bases de datos. La bioinformática intenta extraer nueva información y conocimientos biológicos a partir de estos datos. Es una biología teórica arraigada en hechos y datos experimentales completos y profundos.
2. Recopilación, almacenamiento, gestión y suministro de información biológica.
Incluido el establecimiento de una base de datos internacional de información biológica básica y un sistema de red internacional de transmisión de información biológica; el establecimiento de un sistema de evaluación y detección de la calidad de los datos biológicos; servicios en línea de visualización de información biológica;
3. Extracción y análisis de información de secuencia del genoma.
Incluido el descubrimiento y la identificación de genes, como el uso de la base de datos internacional EST y los datos correspondientes medidos en los respectivos laboratorios para descubrir nuevos genes, nuevos SNP y varios sitios funcionales mediante el análisis paralelo a gran escala del genoma; Estructura de información de las regiones centrales y no codificantes, proponer modelos teóricos y aclarar las funciones biológicas importantes de estas regiones; analizar y comparar la estructura de información de todo el genoma de organismos modelo; utilizar información biológica para estudiar el origen del código genético; la evolución de la estructura del genoma, la estructura espacial del genoma y la relación entre el plegamiento del ADN, la información del genoma y la evolución biológica.
4. Investigación sobre técnicas y métodos de análisis bioinformático.
Incluyendo el desarrollo de software, bases de datos y algunas herramientas de bases de datos eficaces que puedan satisfacer las necesidades de secuenciación y mapeo a gran escala, como cuadrículas electrónicas y otras herramientas de comunicación remota, la mejora de los métodos de análisis teórico existentes, como los métodos estadísticos y los patrones; métodos de reconocimiento, métodos de procesos ocultos de Markov, métodos de redes neuronales, métodos de análisis de complejidad, métodos de criptografía, métodos de comparación de secuencias múltiples, etc. Crear todos los nuevos métodos y tecnologías para el análisis del genoma. Incluyendo la introducción de tecnología de análisis de sistemas complejos y tecnología de análisis de sistemas de información;
5.
Recopilar información genética humana relacionada con enfermedades, desarrollar tecnología para detectar información de secuencia de muestras de pacientes y seleccionar vectores de expresión y cebadores basados en información de secuencia, y establecer bases de datos relacionadas con el mejoramiento animal y vegetal, el diseño de macromoléculas y el diseño de fármacos. .
(2) Preguntas de investigación
1. Almacenamiento y gestión de big data biológicos
Incluida la estructura de almacenamiento, los estándares de almacenamiento y la tecnología de gestión de big data biológicos. Los big data biológicos son enormes en cantidad, complejos en estructura y tienen varios estándares de almacenamiento, incluidos datos no estructurados, datos semiestructurados, datos estructurados y otras estructuras de datos. Cómo elegir sistemas de archivos distribuidos, combinaciones de datos distribuidos y sistemas de bases de datos paralelas distribuidas es también uno de los principales problemas en la tecnología de gestión y almacenamiento de big data biológicos.
2. Visualización de big data biológicos
Los big data biológicos tienen importancia biológica universal debido a su enorme cantidad. La visualización razonable puede ayudar a los biólogos a comprender y analizar rápidamente los datos biológicos.
3. Análisis y procesamiento de big data biológicos
Integrar múltiples datos ómicos para cálculo y análisis para resolver problemas biológicos prácticos.
(3) Tecnologías clave
Las tecnologías clave en el campo del big data biológico son:
1. Estandarización, integración y tecnología de fusión del big data biológico<. /p>
Investigar tecnologías clave para la integración y fusión de datos histológicos, datos médicos y datos de salud, desarrollar modelos de información y motores de integración para datos histológicos, médicos y de salud, e investigar tecnologías de implementación de interfaces para mensajes y documentos basados en tecnologías domésticas. y estándares y especificaciones extranjeros. Tecnología de seguridad de red y tecnología de transmisión de alto rendimiento basada en tecnología de Internet de próxima generación.
2. Tecnología de acceso a almacenamiento, búsqueda y indexación de expresiones de big data biológicos.
Céntrese en los avances en la descripción y la tecnología de acceso paralelo de recursos de big data biológicos, construyendo una indexación eficiente y un sistema de gestión de almacenamiento de big data biológicos confiable y escalable, basado en la recuperación de recursos de big data biológicos y biomédicos de base semántica. búsqueda de correlación de datos y otras tecnologías clave para establecer un sistema de servicios de búsqueda y adquisición de recursos de big data biológicos.
3. Análisis del procesamiento de big data e investigación de aplicaciones en enfermedades cardiovasculares y tumorales.
Para enfermedades cardiovasculares y tumorales, integre registros médicos electrónicos, imágenes, datos de pruebas clínicas y otros tipos de datos (que cubren a más de 500.000 personas, con un volumen total de datos de 50 TB) y lleve a cabo grandes operaciones médicas. El procesamiento, almacenamiento, análisis e investigación aplicada de datos brindan soporte de big data para mejorar el diagnóstico y tratamiento de las principales enfermedades.
4. Análisis y aplicación basada en el procesamiento de big data médico y sanitario regional.
Seleccione datos médicos y de salud regionales que abarquen más de 1 millón de personas y el volumen total de datos no debe ser inferior a 100 TB. A través del procesamiento, almacenamiento, análisis e integración, construimos una base de conocimientos de servicios de salud y una plataforma de soporte para brindar servicios de aplicaciones.
5. Organizar la construcción y la tecnología de servicio del big data center y la base de conocimientos.
Integre datos ómicos, incluidos el genoma y el proteoma, el volumen total de datos no es inferior a 100 TB, al menos el 60 % de los datos proporciona acceso externo, centrándose en los avances en la tecnología de visualización del genoma personal, la anotación ómica y el riesgo de enfermedades. Evaluar la tecnología y establecer una base de conocimientos ómicos de big data y un motor de búsqueda, minería de datos y plataforma de análisis visual.