Cuando el Proyecto Genoma Humano anunció
que había completado el primer genoma humano en 2003, fue un logro trascendental:
por primera vez se descifró el código del ADN de la vida humana. Pero había un
inconveniente, y es que no se consiguió reunir toda la información del genoma.
Existían lagunas, regiones sin rellenar, a menudo repetitivas, que resultaban
demasiado confusas para unirlas.
Gracias a los avances en la
tecnología para manejar estas secuencias repetitivas, los científicos
finalmente llenaron esos vacíos en
mayo de 2021, y el primer genoma humano completo ha sido publicado oficialmente el
31 de marzo de 2022.
Soy una bióloga experta en
genética que estudia las secuencias repetitivas de ADN y cómo
dan forma a los genomas a lo largo de la historia evolutiva. Formé parte del
equipo que ayudó a caracterizar las
secuencias repetitivas que faltaban. Y ahora, con un genoma
humano completo, esas regiones repetitivas se están explorando por primera vez
en su totalidad.
Las piezas del puzzle
que faltaban:
El botánico alemán Hans
Winkler acuñó la palabra “genoma” en
1920, combinando la palabra “gen” con el sufijo “-ome” (en inglés es genome), que significa “conjunto completo”, para
describir la secuencia completa de ADN que contiene cada célula. Los
investigadores siguen utilizando esta palabra un siglo después para referirse
al material genético que compone un organismo.
Una forma de describir el aspecto de un genoma es compararlo
con un libro de consulta. En esta analogía, un genoma es una antología que
contiene las instrucciones del ADN para la vida. Se compone de una amplia gama
de nucleótidos (letras) que se empaquetan en cromosomas (capítulos). Cada
cromosoma contiene genes (párrafos) que son regiones de ADN que codifican las
proteínas específicas que permiten el funcionamiento de un organismo.
Aunque todo
organismo vivo tiene un genoma, su tamaño varía de una especie a otra. Un
elefante utiliza la misma forma de información genética que la hierba que come
y las bacterias de su intestino. Pero no hay dos genomas exactamente iguales.
Algunos son cortos, como el genoma de la bacteria que habita en los insectos Nasuia deltocephalinicola, con solo 137 genes en
112 000 nucleótidos. Otros, como los 149 000 millones de nucleótidos
de la planta con flores Paris japonica, son tan largos que resulta difícil
hacerse una idea de cuántos genes contienen.
No obstante, los genes, tal
y como se entienden tradicionalmente como tramos de ADN que codifican
proteínas, constituyen solo una pequeña parte del genoma de un organismo. De
hecho, suponen menos del 2 % del ADN
humano.
El genoma humano contiene
aproximadamente 3 000 millones de nucleótidos y algo menos de 20 000
genes que codifican proteínas, lo que representa un 1 % de la longitud
total del genoma.
El 99 % restante son
secuencias de ADN no codificantes que no producen proteínas. Algunas son
componentes reguladores que funcionan como una centralita para controlar el
funcionamiento de otros genes. Otras son pseudogenes o
reliquias genómicas que han perdido su capacidad de funcionamiento.
Y más de la mitad del
genoma humano es repetitivo, con múltiples copias de secuencias casi idénticas.
Completar el rompecabezas genómico
Hasta hace poco, muchas de
estas complejas regiones podían compararse con la cara oculta de la luna: se
sabía que existían, pero no se veían.
Cuando el Proyecto Genoma Humano se
puso en marcha por primera vez en 1990, las limitaciones tecnológicas impedían
descubrir por completo las regiones repetitivas del genoma. La tecnología de
secuenciación disponible solo podía leer unos 500 nucleótidos a
la vez, y estos fragmentos cortos tenían que superponerse unos a otros para
recrear la secuencia completa. Los investigadores utilizaron estos segmentos
superpuestos para identificar los siguientes nucleótidos de la secuencia,
ampliando gradualmente el ensamblaje del genoma de a un fragmento por vez.
Estas regiones repetitivas
de lagunas eran como armar un rompecabezas de 1 000 piezas de un cielo
nublado: cuando todas las piezas son iguales, ¿cómo saber dónde empieza una
nube y dónde acaba otra? Con tramos casi idénticos que se solapan en muchos
puntos, la secuenciación completa del genoma por partes se hizo inviable. En la
primera iteración del genoma humano quedaron ocultos millones de nucleótidos.
Desde entonces, los parches
de secuencias han ido rellenando poco a poco las lagunas del genoma humano. Y
en 2021, el Consorcio Telómero a
Telómero (T2T), un consorcio internacional de científicos que
trabajan para completar un ensamblaje del genoma humano de extremo a extremo,
anunció que todas las lagunas restantes fueron finalmente llenadas.
Esto ha sido posible gracias a la mejora de la
tecnología de secuenciación, capaz de leer secuencias más largas de
miles de nucleótidos. Con más información para situar las secuencias
repetitivas dentro de un panorama más amplio, resultó más fácil identificar su
lugar adecuado en el genoma. Como si se simplificara un rompecabezas de
1 000 piezas a un rompecabezas de 100 piezas, las secuencias de lectura
larga hicieron posible ensamblar grandes regiones
repetitivas por primera vez.
Gracias a la creciente
potencia de la tecnología de secuenciación de ADN de lectura larga, los
genetistas están en condiciones de explorar una nueva era de la genómica,
desentrañando por primera vez complejas secuencias repetitivas en poblaciones y
especies. Y un genoma humano completo y sin lagunas constituye un recurso
inestimable para que los investigadores estudien las regiones repetitivas que
conforman la estructura y la variación genéticas, la evolución de las especies
y la salud humana.
Pero un genoma completo no
lo recoge todo. Se siguen realizando esfuerzos para crear diversas referencias
genómicas que representen plenamente la población humana y la vida en la Tierra.
Con referencias genómicas más completas, “telómero a telómero”, la comprensión
de los científicos de la materia oscura repetitiva del ADN será más clara.
No hay comentarios:
Publicar un comentario