Ya hay algunas buenas respuestas en esta página, pero en su mayoría describen conceptos que debe aprender. Mi objetivo principal es aprender a “hacer biología computacional” y, por lo tanto, esta respuesta se centrará en los 5 documentos y técnicas principales (en mi opinión) que debes aprender. Junto con cada artículo que recomiendo, también noto algunos de los desafíos de vanguardia en el campo que están relacionados con el documento pero que a menudo no se resuelven por completo. Los desafíos están ordenados por dificultad y escritos en negrita para llamar la atención.
Además, descargo de responsabilidad: esta respuesta es más relevante para alguien que intenta leer documentos de biología computacional con el fin de investigar en genómica. Sin embargo, algunos de los principios utilizados por los autores de estos artículos son aplicables a todos los campos de la biología computacional. Voy a tratar de limitarme a 5 documentos principales que me han influenciado más en aras de la brevedad.
Con estas renuncias fuera del camino, aquí va:
1) Herramienta básica de búsqueda de alineación local
- Nunca (a sabiendas) escuché una canción de Justin Bieber. ¿Qué debería escuchar?
- Me he encontrado con muchas personas que creen que Modi debería disculparse por lo que sucedió en 2002. No entiendo esto completamente. ¿Qué piensas exactamente cuando dices esto?
- Quiero tomar una franquicia de restaurantes A&W en Canadá, ¿cuánto beneficio obtengo de este negocio?
- Tengo 5’4 y 23 años. ¿Sería difícil para mí encontrar una chica hermosa?
- Me resulta difícil resolver preguntas que requieren JOIN en SQL. ¿Dónde puedo encontrar ayuda?
Este artículo describe el algoritmo BLAST utilizado para alinear las secuencias de nucleótidos y aminoácidos. Creo que la mayor parte de la biología computacional moderna se remonta a este documento y es un artículo clásico para leer. Además, aunque se ha desarrollado un software más nuevo, BLAST todavía se usa mucho. Papel clasico. ¡DEBE LEER!
Reto: Honestamente, la alineación local se ha resuelto extremadamente bien por ahora. Entonces no hay un gran desafío aquí. Este documento le ayuda principalmente a aprender a pensar en biología computacional y puede aplicarse para resolver otros desafíos posteriores. Sin embargo, creo que un buen desafío para comenzar es “Después de leer el documento, intente implementar el algoritmo por su cuenta”. ¡Esto hará que tus jugos fluyan!
2) Exploración, normalización y resúmenes de datos de nivel de sonda de matriz de oligonucleótidos de alta densidad.
Cuando la tecnología de microarrays surgió en 1999, creó una revolución. Los científicos podrían estudiar cosas a nivel del genoma completo y, por lo tanto, podrían responderse varias preguntas nuevas. Sin embargo, un importante cuello de botella fue que casi nadie sabía la forma correcta de analizar los datos. Este documento, escrito por un grupo de estadísticos, sentó las bases de cómo analizar los datos de microarrays de una manera matemáticamente rigurosa. Varios descubrimientos importantes realizados utilizando microarrays tienen métodos introducidos por este documento y los derivados de este documento en su columna vertebral.
En cierto modo, este artículo comenzó la era del software para la genómica. ¡DEBE LEER!
3) Alineamiento ultrarrápido y eficiente en la memoria de secuencias cortas de ADN con el genoma humano
Es bien sabido ya menudo citado que la secuenciación de nucleótidos sigue y excede la ley de Moore [1]. Una mejora importante en el costo y la eficiencia ocurrió cuando las personas comenzaron a usar lecturas más cortas para secuenciar nucleótidos. Sin embargo, esto creó un gran obstáculo analítico. El genoma humano tiene 3 mil millones de caracteres y muchas de las lecturas que se generan son tan cortas como 35 bps. Además, rutinariamente se generan decenas de millones de tales lecturas por muestra con al menos 6 muestras por experimento (3 casos, 3 controles). Entonces, para un experimento de secuenciación simple, también se podría imaginar tener que mapear con mucha precisión varios cientos de millones de lecturas exclusivamente para el genoma humano.
Un avance importante en el análisis de esta gran cantidad de datos cuando se desarrolló Bowtie. En una computadora portátil normal utilizada por la mayoría de los científicos, Bowtie es capaz de mapear con precisión varios millones de lecturas a un genoma grande como el genoma humano en unas pocas horas. Esto inició una tormenta de artículos que describen métodos para una alineación de lectura tan corta y como un primer paso en casi todas las líneas de análisis genómico. ¡DEBE LEER!
Si está muy interesado, también lea: Alineación de lectura rápida con Bowtie2
¡Varias características nuevas agregadas sobre Bowtie! Bowtie2 ahora ha reemplazado casi por completo a Bowtie.
Desafío: muchas aplicaciones no eran compatibles con Bowtie1 cuando se lanzó según lo reconocido por el autor.
4) El ensamblaje de la transcripción y la cuantificación por RNA-Seq revela transcripciones no anotadas y cambio de isoforma durante la diferenciación celular
Una razón importante para usar la secuencia de nucleótidos es estimar con precisión la abundancia de todas las transcripciones y comparar esta abundancia en todas las condiciones. Aquí hay un experimento muy simplificado: secuencia de ARN derivado de un sujeto sano y un paciente con cáncer. Compare las especies de ARN diferentes entre el sujeto y el paciente. Tal comparación probablemente arrojaría información sobre las vías que van mal en un paciente con cáncer y nos acercaría a una cura para el cáncer. Un problema importante en este experimento es estimar con precisión la abundancia de diferentes transcripciones y este documento describe el conjunto de Gemelos que se usa ampliamente para resolver este problema.
Además, los autores han hecho un gran trabajo al explicar conceptualmente los fundamentos matemáticos detrás de su software. ¡DEBE LEER!
Lea también: Análisis diferencial de la regulación génica en resolución de transcripción con RNA-seq. Esto describe una técnica en el conjunto de Gemelos para encontrar transcripciones que son significativamente diferentes entre 2 condiciones.
Para un protocolo que describe el proceso de análisis paso a paso, consulte: Análisis de expresión diferencial de genes y transcripciones de experimentos de RNA-seq con TopHat y Gemelos
5) El núcleo del espectro: un núcleo de cadena para la clasificación de proteínas SVM
Descargo de responsabilidad: esto es casi como un trabajo de informática pura. Entonces, si eres biólogo, ten paciencia al tratar de entender el artículo.
Solo puede ir tan lejos analizando datos experimentales; ya sea propio o disponible al público. El siguiente paso para convertirse en un buen biólogo computacional es poder desarrollar modelos y clasificadores que aprendan las diferencias entre diferentes condiciones y poder predecir a qué clase se asignará un nuevo punto de datos. Este documento ayuda a comenzar a abordar estas preguntas.
El aprendizaje automático ha sido un subcampo transformacional en informática y las máquinas de vectores de soporte (SVM), en particular, lideran la carga en la clasificación de objetos. Este es un problema que se encuentra habitualmente en biología.
Imagine un escenario en el que necesita aprender de las características de datos experimentales existentes que distinguen la secuencia de ADN unida por diferentes proteínas y luego clasifican la nueva secuencia de ADN en función de la proteína con la que interactuará.
Los SVM son muy buenos para resolver tales problemas. Uno de los trucos utilizados por los SVM para tal clasificación no lineal es mapear las propiedades de la entrada en un espacio dimensional más alto (kernel) y dibujar un límite complicado que rodea cada una de las diferentes clases. La mayoría de los núcleos SVM desarrollados en informática son para números, mientras que la mayoría de los problemas biológicos tienen secuencias, es decir, caracteres de diferentes longitudes (k-mers) como entrada. Este documento describió un núcleo de cadena que puede usarse fácilmente para mapear características de secuencia (k-mer) en una dimensión superior.
Si bien los SVM están siendo competidos con el advenimiento del aprendizaje profundo, este documento es un gran comienzo para comprender los métodos utilizados por varios documentos posteriores.