Genetyczne ramki. Nowe odkrycia pozwalają lepiej poznać ludzki genom

Żeby zrozumieć, o co chodzi, trzeba na chwilę zajrzeć do podstaw biologii. Genom to pełny zapis DNA człowieka – coś w rodzaju ogromnej instrukcji działania organizmu. Problem w tym, że ta instrukcja nie jest czytana jak zwykły tekst, słowo po słowie.

Bardziej przypomina zdanie zapisane bez spacji. Na pierwszy rzut oka może wyglądać jak przypadkowy ciąg znaków, ale jeśli zacząć czytać od właściwego miejsca, nagle pojawia się sens.

W komórce ten sens powstaje z trójek. Informacja genetyczna jest odczytywana po trzy nukleotydy naraz, a taką trójkę nazywamy kodonem. Jeden kodon mówi: „start”, kolejne wskazują, jakie aminokwasy należy dołączyć, a kodon „stop” kończy instrukcję.

Taki odcinek, który można czytać od startu do stopu, nazywa się otwartą ramką odczytu, po angielsku Open Reading Frame, czyli ORF. Można ją wskazać w DNA, ale przy produkcji białka komórka korzysta z roboczej kopii tej informacji, czyli mRNA.

Z pozoru to detal techniczny. W rzeczywistości od tego, gdzie zacznie się i gdzie skończy odczyt takiej sekwencji, może zależeć, czy komórka wyprodukuje białko, peptyd albo bardzo krótkie mikrobiałko.

Dlatego otwarte ramki odczytu stały się przedmiotem prac międzynarodowego konsorcjum TransCODE, które porządkuje wiedzę o mniej oczywistych, długo pomijanych miejscach w ludzkim genomie. W pracach konsorcjum uczestniczy Michał Świrski z Instytutu Genetyki i Biotechnologii na Wydziale Biologii Uniwersytetu Warszawskiego.

Rybosom w akcji

Otwarta ramka odczytu nie jest jeszcze dowodem, że komórka produkuje białko. Jest raczej miejscem, które potencjalnie można odczytać.

„Otwarta” oznacza, że między początkiem a końcem takiego odcinka nie pojawia się sygnał „stop”, więc rybosom może przesuwać się wzdłuż cząsteczki mRNA i dołączać kolejne aminokwasy. Ten etap nazywa się elongacją.

– Koncepcja otwartej ramki odczytu dotyczy dzielenia kwasów nukleinowych, zarówno DNA, jak i RNA, na segmenty, które potencjalnie mogłyby być kodujące. Cały genom można podzielić na otwarte ramki odczytu, przy czym nie ma znaczenia, czy ORF w ogóle ulega transkrypcji – wyjaśnia Michał Świrski.

Dopiero tu zaczyna się właściwa selekcja. W DNA są sekwencje kodujące, czyli takie, które zawierają instrukcję potrzebną do wyprodukowania białka.

Struktura peptydyny. Źródło: Leron Kok/Princess Máxima Center for Pediatric Oncology

Są też sekwencje niekodujące. Część z nich reguluje aktywność genów albo pomaga utrzymać fizyczną stabilność chromosomów. Inne mogą nie pełnić żadnej znanej funkcji, a o części po prostu jeszcze za mało wiemy.

Żeby z zapisu w DNA powstało białko, komórka musi wykonać dwa kroki. Najpierw w jądrze komórkowym zachodzi transkrypcja, czyli przepisanie informacji z DNA na mRNA.

Potem mRNA opuszcza jądro, a do akcji wkraczają rybosomy, czyli komórkowe fabryki białek. To one podczas translacji czytają instrukcję zapisaną w mRNA i łączą aminokwasy w odpowiedniej kolejności.

– Większość otwartych ramek odczytu po prostu istnieje w genomie. Część znajduje się w zestawie dojrzałych cząsteczek RNA, który w określonym momencie znajduje się w komórce. Dopiero niektóre z nich ulegają translacji – podkreśla badacz.

Dlatego sama obecność ORF-u jeszcze nie przesądza sprawy. Wiele takich ramek jest bardzo krótkich. Część może prowadzić do powstawania mikrobiałek, ale część nie daje nawet takiego produktu, bo po kodonie „start” niemal od razu pojawia się kodon „stop”.

W praktyce oznacza to, że badacze muszą odróżnić biologicznie ważny sygnał od sekwencji, która tylko wygląda, jakby mogła być instrukcją.

Do tego dochodzi kłopot z językiem. W różnych dyscyplinach należących do dziedziny nauk biologicznych używano pojęcia otwartej ramki odczytu trochę inaczej, co przez lata wprowadzało zamieszanie.

– Inaczej o ORF-ach myśli biolog ewolucyjny, inaczej badacz zajmujący się translacją albo proteomiką, czyli badaniem wszystkich białek obecnych w komórce. W niektórych dziedzinach ORF oznacza po prostu region, który jest dekodowany przez rybosom, czyli ulega translacji. Dlatego w październiku w „Nature Methods” zaproponowaliśmy termin „translon” – mówi Świrski.

Niekanoniczne, czyli jakie?

Skoro komórki mogą odczytywać więcej fragmentów genomu, niż przez lata zakładano, trzeba najpierw wiedzieć, gdzie tych fragmentów szukać. Bez takiej mapy badacz pracujący nad konkretną chorobą, mutacją albo białkiem za każdym razem musiałby zaczynać niemal od zera.

W artykule opublikowanym w „Nucleic Acids Research” autorzy przedstawili rozszerzony katalog ludzkich niekanonicznych otwartych ramek odczytu, czyli właśnie takich miejsc, które do niedawna często wypadały z oficjalnych opisów genomu, choć mogły być odczytywane przez komórkę. Ich brak w bazach danych ograniczał wykorzystanie tej wiedzy w badaniach biomedycznych.

Wcześniej konsorcjum TransCODE, powstałe w 2022 roku i skupiające ponad 60 naukowców z trzydziestu kilku instytucji na świecie, opracowało pierwszy katalog ludzkich niekanonicznych ORF-ów i udostępniło go społeczności naukowej. Teraz ten katalog został znacząco rozszerzony.

I tu znowu w paradę wchodzi nazewnictwo. Bo niby dlaczego te ramki odczytu są niekanoniczne?

– Są niekanoniczne, czyli inne niż standardowe, po prostu dlatego, że do tej pory nie znajdowały się w oficjalnych bazach danych. W biologii często działa prymat pierwszego odkrycia. Jak odkryjemy dla białka jakąś funkcję, to opisujemy je według tej funkcji. A potem, gdy znajdziemy jakąś drugą funkcję, to nazywamy ją niekanoniczną, alternatywną albo podobnie. A może się oczywiście okazać, że ta druga fizjologicznie jest dużo ważniejsza – wyjaśnia biolog molekularny z UW.

Do nowego zestawu włączono wiele ramek odczytu, które wcześniej pomijano między innymi dlatego, że były zbyt krótkie. W efekcie badacze opisali 28 359 niekanonicznych ORF-ów, prawie cztery razy więcej niż w poprzednim katalogu.

Z tej dużej grupy wyodrębnili też 10 127 ramek z najmocniejszymi dowodami translacji, czyli takimi, które można traktować jako najbardziej wiarygodną bazę odniesienia dla dalszych analiz.

– W ramach TransCODE pracujemy nad standardem opisu genomu, próbując utworzyć zestaw referencyjny. Podczas pracy nad kolejnym eksperymentem biolog nie próbuje na nowo opisać całego genomu ludzkiego. Po prostu sięga do bazy danych. A dzięki naszej bazie dostaje koordynaty konkretnych genów. To trochę jak przygotowanie dla naukowców mapy, na której trzeba uwzględnić przecież także małe, ale ważne miejsca – mówi Michał Świrski.

Dlaczego taka mapa powstaje dopiero teraz? Przez długi czas brakowało metod pozwalających sprawdzić, które fragmenty mRNA są rzeczywiście odczytywane przez rybosomy.

Przełom nastąpił w 2009 roku, wraz z rozwojem profilowania rybosomów, czyli technologii Ribo-seq. Dzięki niej można zobaczyć nie tylko, że dana instrukcja istnieje, ale też że komórka naprawdę po nią sięga.

– Technologia profilowania rybosomów polega na wycinaniu mRNA, ale pozwoleniu rybosomom na ochronę tych kawałków, na których w danym momencie „siedziały”. Dzięki temu można sprawdzić, które geny są właśnie aktywnie wykorzystywane do produkcji białek i dokładnie gdzie w komórce zachodzi ten proces. Badacze tworzą więc coraz bardziej szczegółowe mapy translacji obejmujące cały genom – wyjaśnia badacz z UW.

Był jeszcze drugi problem: różne badania i różne metody profilowania dawały wyniki, które nie zawsze łatwo było ze sobą porównać. A jeśli z takich danych ma powstać mapa użyteczna dla innych naukowców, trzeba je najpierw zebrać, ujednolicić i pokazać w czytelnej formie.

– Moim zadaniem w TransCODE jest dostarczanie zagregowanych danych uzyskanych dzięki profilowaniu rybosomów. Stworzona przez nas platforma RiboCrypt pełni funkcję interaktywnego atlasu: gromadzi w zasadzie wszystkie, a na pewno absolutną większość, światowych danych z tego zakresu. W zautomatyzowany sposób przetwarzamy publicznie dostępne wyniki, wyciągamy z nich wnioski i przedstawiamy je w formie czytelnych, graficznych wizualizacji. Dzięki temu naukowcy i lekarze mogą na bieżąco, w jednym miejscu, podglądać mapy aktywności genów w komórkach – opowiada naukowiec.

Ciemna materia komórki

Przez lata podstawowa mapa ludzkiego proteomu wydawała się dość stabilna. Zakładano, że człowiek ma około 19 500 kanonicznych genów kodujących białka. To one były głównymi bohaterami biologii molekularnej, badań nad chorobami i rozwoju leków.

Ale jeśli część krótkich, wcześniej pomijanych ramek odczytu także może prowadzić do powstawania produktów białkowych, ta mapa robi się niepełna. Nie chodzi o drobną poprawkę na marginesie, tylko o pytanie, czy w komórkach działa jeszcze warstwa, której dotąd dobrze nie widzieliśmy.

Ten słabo poznany obszar bywa nazywany „ciemnym proteomem”, przez analogię do ciemnej materii w kosmosie. Wiadomo, że coś tam jest i może mieć znaczenie, ale dopiero trzeba sprawdzić, gdzie dokładnie się znajduje, jak powstaje i czy rzeczywiście wpływa na działanie komórki.

Temu zagadnieniu poświęcony był kolejny artykuł konsorcjum TransCODE, opublikowany w „Nature”.

– W badaniu wykazaliśmy istnienie wielu takich białek i opisaliśmy ich potencjalne funkcje. Przeanalizowaliśmy 7264 niekanoniczne otwarte ramki odczytu i znaleźliśmy około 1700 produktów białkowych. Ich powstawanie można potwierdzić eksperymentalnie, ale ich funkcja i status wymagają dalszych badań – mówi badacz.

Autorzy pracy zaproponowali też nową nazwę dla części takich produktów: peptydeiny. To cząsteczki powstające z niekanonicznych ramek odczytu, które udało się wykryć, ale których rola nie jest jeszcze wystarczająco dobrze poznana, by mówić o nich tak samo jak o klasycznych, dobrze opisanych białkach.

Dlaczego to ważne? Bo nawet bardzo małe cząsteczki mogą okazać się biologicznie istotne. W pracy opisano przykład peptydeiny, której zaburzenie wpływało na przeżycie komórek, a analizy wskazywały na możliwe powiązania z podziałami komórkowymi i odpowiedzią na uszkodzenia DNA.

To nadal obszar do dalszych badań, ale właśnie dlatego budzi tak duże zainteresowanie. Sekwencje kodujące białka są przecież jednym z fundamentów badań biomedycznych, w tym rozwoju nowych terapii.

Mutacje – nowy kontekst

Tu widać, dlaczego ta mapa może być ważna nie tylko dla biologii podstawowej. Mutacja może nie znajdować się w klasycznej sekwencji kodującej białko, a mimo to zaburzyć jego produkcję. Dlatego wiedza o tym, które fragmenty mRNA są rzeczywiście odczytywane przez rybosomy, ma znaczenie nie tylko dla porządkowania genomu, ale też dla rozumienia chorób.

– To jest właśnie ciekawe. Otóż jeżeli do mutacji dojdzie w obrębie regionów tradycyjnie uznawanych za niekodujące, to nie powinna ona mieć żadnego wpływu. Tymczasem tak nie jest. Jeżeli w ORF-ie wprowadzimy mutację, która zmieni tożsamość aminokwasu, to zwykle nic się nie stanie. Ale bywa też, że wstawienie albo usunięcie nukleotydu spowoduje, że ORF się rozszerzy i na przykład „zahaczy” o sekwencję kodującą białko. Wtedy oczywiście wyłączy jego produkcję, mimo że w obrębie samej sekwencji kodującej to białko mutacji nie będzie – wyjaśnia Michał Świrski.

Właśnie w takich sytuacjach baza RiboCrypt może działać jak dodatkowa warstwa mapy. Pokazuje nie tylko znane geny, ale też mniej oczywiste miejsca, które komórka może odczytywać. A czasem to wystarczy, żeby zobaczyć przyczynę tam, gdzie wcześniej wyglądało, jakby jej nie było.

– Zdarzyło mi się na konferencji na żywo rozwiązać problem dotyczący mutacji. Pewien lekarz i jednocześnie naukowiec omawiał sekwencję konkretnego genu u swojego pacjenta. Miał pewność, że ten gen nie działa, ale w jego obrębie nie było widać żadnej mutacji. Korzystając z informacji w bazie RiboCrypt byłem w stanie wykazać, że mutacja jak najbardziej istnieje. Znajdowała się jednak tuż obok, w obrębie niekanonicznej otwartej ramki odczytu. To całkowicie zablokowało lub zniekształciło powstawanie właściwego białka – opowiada badacz.

Struktura białka – Przewidywane wiązanie między niekanoniczną otwartą ramką odczytu (niebieska) a tradycyjnym białkiem (żółta). Źródło: Leron Kok / Princess Máxima Center for Pediatric Oncology.

Znaczenie nowych danych widać także w badaniach nad odpornością i nowotworami. Jak wynika z artykułu opublikowanego w „Nature”, część nowo opisanych peptydów może być prezentowana na powierzchni komórek przez cząsteczki HLA. To one pokazują układowi odpornościowemu fragmenty tego, co dzieje się wewnątrz komórki. Jeśli w komórce nowotworowej pojawiają się nietypowe cząsteczki, mogą stać się sygnałem dla układu odpornościowego albo potencjalnym celem terapii.

– Na konferencjach poświęconych badaniu białek (proteomice) coraz więcej prac dotyczy poszukiwania nowych sposobów leczenia nowotworów. Badacze analizują, jakie białka są aktywne w komórkach rakowych i które z nich można wykorzystać jako cel terapii. Jest to szczególnie ważne, ponieważ w komórkach nowotworowych uruchamiają się także takie fragmenty materiału genetycznego, które w zdrowych komórkach pozostają uśpione – podkreśla naukowiec.