Si quiero comenzar con la bioinformática o la biología computacional, ¿qué temas debo aprender? ¿Cuáles son los desafíos reales en este campo?

Ya hay algunas buenas respuestas en esta página, pero en su mayoría describen conceptos que debe aprender. Mi objetivo principal es aprender a “hacer biología computacional” y, por lo tanto, esta respuesta se centrará en los 5 documentos y técnicas principales (en mi opinión) que debes aprender. Junto con cada artículo que recomiendo, también noto algunos de los desafíos de vanguardia en el campo que están relacionados con el documento pero que a menudo no se resuelven por completo. Los desafíos están ordenados por dificultad y escritos en negrita para llamar la atención.

Además, descargo de responsabilidad: esta respuesta es más relevante para alguien que intenta leer documentos de biología computacional con el fin de investigar en genómica. Sin embargo, algunos de los principios utilizados por los autores de estos artículos son aplicables a todos los campos de la biología computacional. Voy a tratar de limitarme a 5 documentos principales que me han influenciado más en aras de la brevedad.

Con estas renuncias fuera del camino, aquí va:

1) Herramienta básica de búsqueda de alineación local

Este artículo describe el algoritmo BLAST utilizado para alinear las secuencias de nucleótidos y aminoácidos. Creo que la mayor parte de la biología computacional moderna se remonta a este documento y es un artículo clásico para leer. Además, aunque se ha desarrollado un software más nuevo, BLAST todavía se usa mucho. Papel clasico. ¡DEBE LEER!

Reto: Honestamente, la alineación local se ha resuelto extremadamente bien por ahora. Entonces no hay un gran desafío aquí. Este documento le ayuda principalmente a aprender a pensar en biología computacional y puede aplicarse para resolver otros desafíos posteriores. Sin embargo, creo que un buen desafío para comenzar es “Después de leer el documento, intente implementar el algoritmo por su cuenta”. ¡Esto hará que tus jugos fluyan!

2) Exploración, normalización y resúmenes de datos de nivel de sonda de matriz de oligonucleótidos de alta densidad.

Cuando la tecnología de microarrays surgió en 1999, creó una revolución. Los científicos podrían estudiar cosas a nivel del genoma completo y, por lo tanto, podrían responderse varias preguntas nuevas. Sin embargo, un importante cuello de botella fue que casi nadie sabía la forma correcta de analizar los datos. Este documento, escrito por un grupo de estadísticos, sentó las bases de cómo analizar los datos de microarrays de una manera matemáticamente rigurosa. Varios descubrimientos importantes realizados utilizando microarrays tienen métodos introducidos por este documento y los derivados de este documento en su columna vertebral.

En cierto modo, este artículo comenzó la era del software para la genómica. ¡DEBE LEER!

3) Alineamiento ultrarrápido y eficiente en la memoria de secuencias cortas de ADN con el genoma humano

Es bien sabido ya menudo citado que la secuenciación de nucleótidos sigue y excede la ley de Moore [1]. Una mejora importante en el costo y la eficiencia ocurrió cuando las personas comenzaron a usar lecturas más cortas para secuenciar nucleótidos. Sin embargo, esto creó un gran obstáculo analítico. El genoma humano tiene 3 mil millones de caracteres y muchas de las lecturas que se generan son tan cortas como 35 bps. Además, rutinariamente se generan decenas de millones de tales lecturas por muestra con al menos 6 muestras por experimento (3 casos, 3 controles). Entonces, para un experimento de secuenciación simple, también se podría imaginar tener que mapear con mucha precisión varios cientos de millones de lecturas exclusivamente para el genoma humano.

Un avance importante en el análisis de esta gran cantidad de datos cuando se desarrolló Bowtie. En una computadora portátil normal utilizada por la mayoría de los científicos, Bowtie es capaz de mapear con precisión varios millones de lecturas a un genoma grande como el genoma humano en unas pocas horas. Esto inició una tormenta de artículos que describen métodos para una alineación de lectura tan corta y como un primer paso en casi todas las líneas de análisis genómico. ¡DEBE LEER!

Si está muy interesado, también lea: Alineación de lectura rápida con Bowtie2

¡Varias características nuevas agregadas sobre Bowtie! Bowtie2 ahora ha reemplazado casi por completo a Bowtie.

Desafío: muchas aplicaciones no eran compatibles con Bowtie1 cuando se lanzó según lo reconocido por el autor.

4) El ensamblaje de la transcripción y la cuantificación por RNA-Seq revela transcripciones no anotadas y cambio de isoforma durante la diferenciación celular

Una razón importante para usar la secuencia de nucleótidos es estimar con precisión la abundancia de todas las transcripciones y comparar esta abundancia en todas las condiciones. Aquí hay un experimento muy simplificado: secuencia de ARN derivado de un sujeto sano y un paciente con cáncer. Compare las especies de ARN diferentes entre el sujeto y el paciente. Tal comparación probablemente arrojaría información sobre las vías que van mal en un paciente con cáncer y nos acercaría a una cura para el cáncer. Un problema importante en este experimento es estimar con precisión la abundancia de diferentes transcripciones y este documento describe el conjunto de Gemelos que se usa ampliamente para resolver este problema.

Además, los autores han hecho un gran trabajo al explicar conceptualmente los fundamentos matemáticos detrás de su software. ¡DEBE LEER!

Lea también: Análisis diferencial de la regulación génica en resolución de transcripción con RNA-seq. Esto describe una técnica en el conjunto de Gemelos para encontrar transcripciones que son significativamente diferentes entre 2 condiciones.

Para un protocolo que describe el proceso de análisis paso a paso, consulte: Análisis de expresión diferencial de genes y transcripciones de experimentos de RNA-seq con TopHat y Gemelos

5) El núcleo del espectro: un núcleo de cadena para la clasificación de proteínas SVM

Descargo de responsabilidad: esto es casi como un trabajo de informática pura. Entonces, si eres biólogo, ten paciencia al tratar de entender el artículo.

Solo puede ir tan lejos analizando datos experimentales; ya sea propio o disponible al público. El siguiente paso para convertirse en un buen biólogo computacional es poder desarrollar modelos y clasificadores que aprendan las diferencias entre diferentes condiciones y poder predecir a qué clase se asignará un nuevo punto de datos. Este documento ayuda a comenzar a abordar estas preguntas.

El aprendizaje automático ha sido un subcampo transformacional en informática y las máquinas de vectores de soporte (SVM), en particular, lideran la carga en la clasificación de objetos. Este es un problema que se encuentra habitualmente en biología.

Imagine un escenario en el que necesita aprender de las características de datos experimentales existentes que distinguen la secuencia de ADN unida por diferentes proteínas y luego clasifican la nueva secuencia de ADN en función de la proteína con la que interactuará.

Los SVM son muy buenos para resolver tales problemas. Uno de los trucos utilizados por los SVM para tal clasificación no lineal es mapear las propiedades de la entrada en un espacio dimensional más alto (kernel) y dibujar un límite complicado que rodea cada una de las diferentes clases. La mayoría de los núcleos SVM desarrollados en informática son para números, mientras que la mayoría de los problemas biológicos tienen secuencias, es decir, caracteres de diferentes longitudes (k-mers) como entrada. Este documento describió un núcleo de cadena que puede usarse fácilmente para mapear características de secuencia (k-mer) en una dimensión superior.

Si bien los SVM están siendo competidos con el advenimiento del aprendizaje profundo, este documento es un gran comienzo para comprender los métodos utilizados por varios documentos posteriores.

Gracias por A2A.

Hay dos caminos que la gente toma:
1. Las personas que son principalmente de biología aprenden informática avanzada
2. Aquellos con experiencia en CS que luego aprenden las cosas bio *

Soy consciente de los bioinformáticos que pertenecen a ambas pistas y no hay diferencia en su enfoque para la resolución de problemas. Lo que importa es que debe conocer tanto la biología avanzada como la informática para abordar el desafío actual que enfrentamos en Genómica / Biología Computacional.

Tomemos cada caso por separado porque no sé qué ruta tomarás:

1. Comienzas con cursos en biología. Tome Biología Celular, Bioquímica, Biología Molecular en primer año / segundo año, obtenga algunos experimentos de biología celular. Aprender inmunología y mecanismos celulares básicos. Emociónate sobre cómo y por qué algunas células sobrevivieron al tratamiento con antibióticos. Continúa para aprender algo de inmunología y biología vegetal. Captar las diferencias fundamentales entre las células vegetales y las células animales.

Mientras disfruta del trabajo experimental, siente curiosidad por saber qué codifica todo esto en el nivel fundamental. Descubres que hay un curso de Bioinformática que comienza en tu universidad. Allí aprenderá algunas alineaciones y agrupaciones de secuencias básicas. Comprenda qué algoritmos dan los mejores resultados de alineación. Viste que puedes hacerlo mejor que el algoritmo Needleman-Wunsch. Tomó algunos cursos básicos de programación en Python, Matlab y R. Entendió las estructuras de datos centrales y los conceptos de base de datos.

Mientras terminabas tu segundo año, querías profundizar. Empacó una pasantía de verano en un laboratorio de investigación genial y comenzó a explorar el mundo real de la investigación. Emocionado por los desafíos actuales en el área, regresó a la universidad y comenzó con su proyecto de pregrado en Bioinformática. Tomó más cursos en Genómica, Biología sintética, Biología de sistemas. Cuando te gradúas de la universidad no te sentías lleno. Tienes hambre. Hambriento de conocimiento. Más conocimiento.

Entonces comienzas tu maestría en probablemente Bioinformática / Biología Computacional. Comenzó con cursos avanzados de genómica donde aprende el Análisis de datos de secuencia de próxima generación. Aprenda cuáles son las diferencias entre RNA-Seq, secuenciación de DNA y ChiRP-Seq y cuáles son las herramientas y los softwares utilizados para analizar esos datos. Excava más allá y analiza críticamente Tophat (Centro de Bioinformática y Biología Computacional) y Gemelos (ensamblaje de transcripción, expresión diferencial y regulación diferencial para RNA-Seq).

Gracias por A2A

La bioinformática y la biología computacional son un vasto campo en sí mismo. Recomendaría obtener una visión general de lo que en realidad es bioinformática / biología computacional.

En resumen, se trata del desarrollo y la aplicación de herramientas computacionales para felicitar el almacenamiento de datos biológicos. gestión, recuperación y análisis.
Tener un breve conocimiento de las moléculas biológicas como el ADN, el ARN y las proteínas lo ayudaría a comprender mejor cómo funcionan estas cosas.

En cuanto a los temas, hay muchos temas para tratar en bioinformática:

Alineación de secuencia
Predicción de ADN y estructura proteica
Plegamiento de proteínas
Interacción Molecular Biológica
Redes biologicas
Bases de datos biológicos
Algoritmos
Scripting (Python y Perl más comúnmente)
Dinámica Molecular
Aprendizaje automático, etc.

Podemos seguir enumerando los temas a medida que el mundo actual avanza hacia una diversificación. Podrías encontrar fácilmente a un chico químico o un chico de ciencias de la computación trabajando en Bioinformática.

Para empezar, creo que este podría ser un comienzo maravilloso teniendo en cuenta que tiene conocimientos básicos:

http://www.ploscollections.org/d

Hay varios desafíos en el campo, y uno de los principales es la falta de herramientas de software precisas y confiables. ¡El análisis de secuenciación de próxima generación tiene muchas tendencias en estos días! Existe un amplio margen y posibilidades para el desarrollo de flujos de trabajo automatizados para manejar la gran cantidad de datos generados por NGS. El plegamiento de proteínas y la dinámica molecular también tienen buena aplicabilidad. La predicción de estructuras de proteínas / proteínas de ADN, descubrimiento de fármacos e identificación de objetivos son algunas de las otras áreas que tienen un gran alcance y desafíos.

“Como campo interdisciplinario de la ciencia, la bioinformática combina ciencias de la computación, estadística, matemáticas e ingeniería para estudiar y procesar datos biológicos” – Wikipedia.

Como bioinformático, deberá equiparse con conocimientos básicos en todas estas áreas.

Ciencias de la Computación
• Python, Perl, R o algún otro lenguaje de script.
• Conceptos básicos de Unix – (ordenar, cortar, grep, awk, sed, ..)
• Algoritmos de búsqueda y clasificación.
• Manipulación de cadenas, por ejemplo, editar distancia, alineación, etc. (utilizada en la alineación del genoma)

Estadísticas

  • Prueba de hipótesis, por ejemplo, prueba de χ2, prueba de t, prueba exacta de Fisher. (Utilizado en estudios de asociación)
  • Teorema de Bayes y suposición Naive Bayes.
  • Estimación de máxima verosimilitud (MLE) y estimación máxima a posteriori (MAP) (genética estadística).
  • Expectativa: algoritmo de maximización. (utilizado en HMM, GMM)
  • Markov Chain Monte – métodos de Carlo.

Matemáticas
• Álgebra lineal: ecuaciones lineales y factorizaciones matriciales.
• Teoría de grafos: caminos eulerianos y hamiltonianos (utilizados en el ensamblaje del genoma)

Secuencia

  • NGS: Jay Shendure, Hanlee Ji (2008) Secuenciación de ADN de próxima generación Nature Biotechnology 26 , 1135-1145 (2008)

Tres pasos muy importantes en biología computacional / estudios bioinformáticos son:

  • Alineación
  • Montaje
  • Llamada variante

Escribí sobre algunas referencias sobre estos temas y lecturas introductorias para alguien nuevo en bioinformática en otra publicación: Inmersión en bioinformática: estudios introductorios para un matemático / estadístico o un informático por Janu Verma en Ripples in Water

La bioinformática y la biología computacional son métodos y herramientas utilizados para estudiar biología. Entonces, lo primero que debe hacer es aprender biología. Aprende genética básica, genómica, biología celular, evolución y un poco de bioquímica. Una vez que comprenda los principios sobre los cuales opera la vida, comience a entrar en los métodos computacionales más comunes, como el problema de alineación de secuencias, los problemas de plegamiento de proteínas, el mapeo de asociación y el análisis de datos de secuenciación de próxima generación. Una gran cantidad de bioinformática hoy en día es el análisis de datos de secuenciación para descubrir, por ejemplo, posibles mutaciones causales en el cáncer, y los problemas en biología computacional incluyen la construcción de las herramientas necesarias para generar los datos de secuenciación que son analizados por los bioinformáticos.

Thansk por hacer la pregunta:

Dependiendo del contexto en que se utilicen los términos bioinformática y biología computacional, puede estar explorando algo dos campos diferentes. Si tiene experiencia en biología y es capaz de hacer preguntas biológicas, vale la pena aprender cómo responderlas utilizando técnicas de bioinformática, la biología computacional está más preocupada por el desarrollo de algoritmos. Tendría que entender las cosas en tres amplias disciplinas de bioinformática: biología, matemática / estadística y ciencias de la computación. En pocas palabras, aquí hay una revisión rápida de lo que puede ser útil en su viaje educativo:

  • La alineación de secuencias y el mapeo son temas muy esenciales en bioinformática, las cosas que aprendemos de ellos son increíbles y sus principios sientan la base de gran parte de lo que viene más adelante en bioinformática.
  • Tipos de microarrays y análisis.
  • Tipos de NGS y técnicas de análisis.
  • Predicción y visualización de la estructura de la proteína (modelado molecular), esto tiene muchas aplicaciones en bioinformática e informática de descubrimiento de fármacos.
  • Inferencia estadística, diseño del estudio y prueba de hipótesis, como bioinformático, una situación ideal es que participe en el diseño de estudios haciendo preguntas al PI y guiando la generación de datos en el laboratorio. La biología se está volviendo extremadamente dependiente de los datos, así que recuerde que muchos de los resultados de su análisis. Por lo tanto, es su derecho que obtenga los datos de la forma en que cree que son más apropiados para el análisis con respuestas apropiadas a las réplicas biológicas y técnicas. Un conjunto de datos incorrecto significa una pérdida de tiempo y recursos valiosos en un análisis de baja potencia y se le culparía por eso.
  • Algoritmos en Bioinformática y sus aplicaciones.
  • programación y programación y programación todo el tiempo, si no eres un programador no eres un bioinformático, muchas tareas de análisis implicarán conversiones de formato que necesitan una comprensión sólida de las estructuras de datos, así que elige un lenguaje como Perl o Python para la tarea, Para mí, Perl siempre ha sido conveniente porque interactúa totalmente con el sistema operativo. También elija un lenguaje funcional como R o SAS para el análisis estadístico. Invertir buen tiempo en aprender esto será gratificante.
  • Lea todo lo que se le presente, fuentes primarias, revistas académicas y artículos de revisión, fuentes secundarias, blogs y noticias en los campos de la genómica y la proteómica.

More Interesting

Quiero comenzar a bloguear como una forma de compartir lo que he aprendido con las personas y eventualmente formar una comunidad. ¿Cuáles son los pasos de acción claros que puedo tomar?

Yo vivo en ca. Mi madre tiene problemas mentales y está a punto de quedarse sin hogar. ¿Qué puedo hacer para mantenerla alejada de las calles?

Visitaré India en la primavera de 2015. ¡Un sueño mío para toda la vida! Estaré en Kolkata durante una semana para una boda, luego pasaré una semana en Jaipur y tres días en Delhi. ¿Alguna sugerencia para aprovechar al máximo mi tiempo en Jaipur y Delhi?

Acabo de pedir Halo 4. Para un novato como yo, ¿qué necesito saber sobre la serie Halo?

He estado con mi novia por más de un año y realmente la amo por muchas razones, pero recientemente, siento que mis sentimientos por ella se están desvaneciendo … y no sé por qué. Quiero estar con ella porque me hace feliz, pero creo que parece que “la magia se ha ido”, si eso tiene sentido. ¿Qué debo hacer? ¿Es realmente molesto?

Quiero comprar una guitarra acústica Yamaha. ¿Cuál es el precio mínimo que puedo obtener un buen modelo?

Me robaron la bicicleta y la encontré encerrada un mes después. ¿Puedo legalmente romper la cerradura y recuperarla?

Tengo 51 años, soy viudo de deudas, con algunas habilidades de TI. ¿Qué tengo que hacer?

Me encanta escuchar canciones de metal, pero a veces el contenido no solo es inapropiado sino también degradante para escuchar. ¿Me equivoco al escuchar y disfrutar cosas como ‘Down With The Sickness’ de Disturbed o ‘A Little Piece of Heaven’ de Avenged Sevenfold?

Soy un posgrado en VLSI, y estoy buscando trabajo en este campo. No terminé en las entrevistas a las que he asistido hasta ahora, pero lo que me interesa es hacer agricultura. Somos dueños de tierras y no tengo trabajo. Estoy confundido acerca de qué carrera elegir. ¿Que sugieres?