Obsah

    1. Úvod
    2. Struktura nukleových kyselin
    3. Struktura proteinů
    4. Sequence alignment
    5. Hledání v databázích
    6. Analýza sekvencí
    7. Databáze
    8. Strukturní alignment
    9. Souvislost struktury a funkce

Úvod

META
Zbytečná kapitola? Kdepak! Ve zkouškovém testu jsou otázky na historický vývoj bioinformatiky běžné, stejně jako obecné otázky typu “Čím se zabývá bioinformatika? (článek na 100 slov)”.

Bioinformatika je vědní disciplína, která se zabývá zpracováním biologických dat. Slovem “zpracování” dat máme namysli jejich sběr, archivaci, organizaci a interpretaci.

Jaká data zpracováváme?

A jak velká? Například největší genom, patřící organismu Amoeba dubia, má 670GB. Stejně tak se v desítkách GB pohybují i 3D histologické skeny. EBI (European Bioinformatic Institute) měl v roce 2015 kapacitu 60 PB dat.

Historie bioinformatiky

Struktura nukleových kyselin

Přednáška 2.

Objev struktury DNA: Watson, Crick, Franklin (50. léta 20. století).

Centrální dogma molekulární biologie
  1. transkripce DNA do RNA
  2. translace RNA na proteiny
  3. proteiny jsou finální manifestací genetické informace
Stavební kameny
guanin
viz slide, běžná purinová báze
guanosin
nukleosid guaninu, tj. guanin + cukr vázaný N-glykosidickou vazbou
guanosin trifosfát
nukleotid guaninu, tj. guanosin + fosfát navázaný fosfodiesterovou vazbou
Deoxynukleotid
Párování
Vodíková vazba
Struktura DNA
Struktura RNA

Struktura proteinů

Přednáška 3.

Primární až kvartnerní; struktura určuje funkci proteinu (proto nás zajímá), například s čím reaguje, jakými membránami projde a za jakých podmínek atp. Další informace viz též zápisky z biopolymerů.

Primární struktura

Primární struktura je určená pořadím aminokyselin (AK). AK je 20+2.

Struktura AK
Stereoizomery
Rotamery
Stacking interakce

Seznam aminokyselin

AK se dají rozdělit do několika skupin; nejdůlěžitější rozdělení je asi podle hydrofobicity, protože podle toho se poté jednotlivé AK vyskytují uvnitř nebo naopak na povrchu proteinů. Další významnou vlastností, která navíc s hydrofobicitou souvisí, je elektrický náboj.

META
Na zkoušku bude požadována znalost všech AK včetně jejich vzorce, vlastností, a zkratky.

Polární AK jsou hydrofilní, nepolární jsou hydrofobní.

Seznam aminokyselin a jejich rozdělení
AK s alifatickým postranním řetězcem
glycin
často v kolagenu, často ve smyčkách, nejmenší a tedy dobře konzervovaný
alanin
také velice častý, existuje i D forma (buněčná stěna, antibiotika), také velice malý a tedy dobře konzervovaný
valin
často v helixech a listech
isoleucin
má dva chirální atomy a tedy čtyři formy, je častý v helixech i listech
leucin
součástí leucinového zipu při interakci proteinů s DNA
AK s kyselou (karboxylovou/amidovou) skupinou
asparagová kyselina
bývá v aktivních místech enzymů
asparagin
první izolovaná AK (z chřestu, viz jméno), tvoří vodíkové můstky, účastní se cappingu (neutralizuje parciální náboj na N’ koncích alfa helixů)
glutamová kyselina
může fungovat jako neurotransmiter, je podobná ASP
glutamin
je zdrojem energie pro mozek
AK se zásaditou (aminovou) skupinou
arginin
může být methylován, bývá na povrchu, kvůli kladnému náboji tvoří vodíkové můstky se záporně nabitými strukturami (DNA)
lysin
může být postrtranslačně modifikován
AK s aromatickým jádrem nebo hydroxylovou skupinou
histidin
tvoří imidazol (další nukleotid, někdy součástí wobblingu), má neutrální pKa—malá změna pH vede he změně náboje, takže je často používán jako vypínač závislý na pH, účastní se koordinace kovů
fenyalanin
je prekurzorem neurotransmiterů
serin
katalyzuje reakce (je to alkohol), především O-glykosylace a fosforylace, nervové plyny jej blokují v acetylcholinesteráze
threonin
má dva chirální atomy, taktéž účasten O-glykosylace a fosforylace (je to alkohol)
tyrosin
podobný PHE, prekurzor neurotransmiterů, účasten forsforylací (je to alkohol)
tryptofan
je největší a tedy dobře konzervovaný, účasten hydrofóbních interakcí (s cukry), prekurzor serotoninu a niacinu
AK se sírou v postranním řetězci
methionin
má jen jeden kodon, může být na povrchu oxidován
cystein
často v hydrofobním jádře proteinů (přestože je polární), tvoří disulfidické můstky, interaguje s ionty kovů (často v aktivních místech enzymů)
AK obsahující sekundární amin
prolin

nemá vodík na dusíku \(\implies\) netvoří vodíkové můstky, nebývá v alfa-helixech ani listech

může být i v konformaci cis (většinou uhlovodíková zbytek AK bývá trans) \(\implies\) může fungovat jako vypínač, protože mění konformaci

jeho cyklus je extrémě rigidní, tvoří zlomy v proteinech

Pro popis aminokyselin se někdy využívá i B (Asn/Asp) a Z (Gln/Glu). Kromě výše zmíněných dvaceti AK se vydělují ještě následující dvě.

pyrolysin
kódovaný UAG stop kodonem
selenocystein
kódovaný UGA stop kodonem, využíván pro určení struktury proteinů, je v řadě enzymů

Další proteinové struktury

Kromě primární struktury proteinu rozlišujeme ještě sekundární, teriární a kvarterní. Sekundární struktura proteinu je určena lokálními konformacemi jeho částí.

Důvody vzniku
Vodíková vazba a stabilizace
Folding
  1. protein je nesbalený, všichni donoři i akceptoři reagují s vodou
  2. protein se sbalí, počet vodíkových můstků klesne
    • entalpicky nevýhodné, ale entropicky výhodné
  3. protein je nyní neustále na hranici rozbalení, aby bylo možné jej případně rozložit (a nezůstal v buňce napořád)
Helix
Beta list
Smyčky
Terciární struktura proteinu

Kvarterní struktura proteinu popsiuje uspořádání několika terciárních struktur (například v dimerech).

Sequence alignment

Přednáška 4.

Základní bioinformatická metoda užíváná k porovnání dvou sekvencí (DNA, proteinů). Obecně se jedná o nějaké seřazení sekvencí pod sebe. Dobrý alignment dvou sekvencí má však důležitou vlastnost: pod sebou jsou jednotky (nukleotidy, AK), které se vyvinuly ze stejného předka. Někdy byly určité jednotky v průběhu evoluce přidány nebo odebrány, což se v rámci alignmentu značí pomlčkami (viz níže).

Než se dostaneme k samotnému procesu alignmentu (tj. zjišťování, které jednotky a potažmo celé sekvence jsou evolučně spřízněné), ukážeme několik jeho praktických využití.

A je homolog B

A a B mají společného předka, jejich původní funkce však nemusí být zachována. Homologii můžeme (opatrně) odvodit z vysokého procenta sekvenční identity A a B (viz dále). Musíme však dát pozor na paralogii.

Na základě homologie můžeme (opatrně) odvodit funkční a strukturní podobnost. Například můžeme hledat homology problémových lidských proteinů v modelových organismech, na které budeme cílit vyvíjená léčiva.

A je ortolog B
Poddruh homologie; A a B vznikly speciací ze společného předka, jejich funkce by tedy měla být zachována.
A je paralog B
Poddruh homologie; A a B vznikly genovou duplikací ze společného předka—jejich funkce tedy nemusí být zachována (protože jedna kopie genu ji zastane, zatímco A a B se mohli vyvinout v něco jiného).
A je ohnolog B
Podobný vztah jako paralog, vzniká ale celogenomovou duplikací.
A je xenolog B
A a B vznikly horizontálním transferem (například mezidruhovým).
A je analog B
A a B mají podobnou funkci, avšak je to jen náhoda—společného předka nemají.
globální alignment
Srovnávání celé sekvence.
lokální alignment
Srovnávání pouze částí sekvence, vybírá kousky, které k sobě sedí nejlépe.
Důvod srovnávání sekvencí

Snažíme se ze znalosti struktury a funkce určitého proteinu odvodit funkci jiného, podobného (homologního) proteinu. To, jestli je vůbec možné z kvantitativní veličiny sekvenční identity (SI) vyvodit kvalitativní rozhodnutí o homologii, zkoumali Chotia, Lest (1986) a Rost (1999). Zjistilo se, že změny ve struktuře jsou korelovány se změnami v sekvenci, neboli z %SI si můžeme troufnout odvodit homologii a podobné vztahy, a z nich poté hádat věci jako je funkce nebo evoluční původ.

Sekvenční identita (SI)

Jakým způsbem se rozhodnout, když jsme v twilight zóně? Na to existuje několik triků.

Jak z twilight zóny?

Výše bylo zmíněno, že srovnávání sekvencí funguje jak pro proteiny, tak pro DNA. Přesto se ale častěji, minimálně k určování homologie, používají proteiny, a to ze dvou důvodů:

  1. protože AK je dvacet, je menší šance, že budou na jednom místě dvě shodné AK náhodou (oproti čtyřem nukleotidům v DNA, kde je náhodná shoda pravděpodobnější)
  2. různé kodony kódují stejné AK, čili určité změny v DNA kódu se vůbec nemusí projevit v jeho exprimaci; jinými slovy, i relativně hodně odlišné sekvence mohou kódovat stejné, nebo velice podobné proteiny

Srovnávání sekvencí DNA ale má svá uplatnění. Používá se v místech, která se v proteomu vůbec neobjeví; při zkoumání regulačních oblastní genů a definování genů a při celogenomovém srovnávání.

Metody jsou v zásadě dvě, dotploty, které slouží spíše k hrubému odhadu situace, a pairwise sequence alignment, což je aby se řeklo the real deal.

Dotplot

Nejpřímější a nejjednodušší metoda: do tabulky se zaznamenávají místa, na kterých jsou dvě sekvence shodné (viz slidy). Někdy se místo jednotlivých stavebních jednotek sekvencí používají celé domény na sekvencích.

Na dotplotu byly sledovány i první dvě známé struktury, hemoglobin a myoglobin.

Silné stránky
Slabé stránky

V praxi se často používá self-dotplot, tedy dotplot, kde je sekvence srovnávána sama se sebou. Ten opět vyhledává symetrické úseky, repetice, odhaluje místa s nízkou komplexitou a palidromy.

Pairwise sequence alignment

Může samozřejmě probíhat i na DNA, pro jednoduchost jej ale popíšeme pouze na proteinech. Pro DNA funguje analogicky.

Předpokládáme, že sekvence A a B mají společného předka. Poté, když je srovnáme (naalignujeme) “pod sebe”, můžeme na každém jednotlivém místě pozorovat následující:

META
Gap (mezera v sekvenci při procesu alignmentu) se Švédsky řekne lucka.

Proces alignmentu je vlastně proces umisťování mezer a pozorování toho, jak si poté dvě sekvence navzájem odpovídají. Příklad alignmentu:

1
2
3
VLSEGKTEAPV[...]
|||..    ||
VLSPA----PV[...]

Toto je další příklad alignmentu těchto sekvencí; tentokrát dosti nepovedeného:

1
2
3
---VLSEGKTEA--PV[...]
   .  ..
V-LS--PA----PV--[...]

Substituce jedné AK za jinou je pravděpodobnější než inzerce/delece. V rámci substitucí je pravděpodobnější substituce podobných jednotek (Val \(\leftrightarrow\) Leu, G \(\leftrightarrow\) A) než těch nepodobných (Trp \(\leftrightarrow\) Gly, G \(\leftrightarrow\) C).

Měřítko kvality alignmentu

K hledání optimálního (nebo suboptimálního) alignmentu používá algoritmus, který projde mnoho různých možných alignmentů a vybere z nich ten s nejvyšším skóre dle přidělené skórovací tabulky. Pozor, ani nejlepší alignment nemusí odpovídat reálu.

Skórovací tabulky

Neboli scoring matrices.

Určení hodnot skóre

Tabulky jsou tedy symetrické—nejsme schopni z empirických dat zjistit, jakým směrem proběhla substituce (pokud máme na daném místě v jedné sekvenci Ile a v druhé Val, nevíme, které AK z těch dvou tam byla původně, a která tam bylo substituována dodatečně).

Tabulka PAM
Tabulka BLOSUM
Další tabulky

Výběr tabulky se snažíme přizpůsobit sekvencím, které srovnáváme, abychom získali co nejlepší výsledky; především rozlišujeme evolučně blízké sekvence od těch vzdálených. Krátké sekvence skórujeme podle tabulek pro krátký evoluční čas.

Algoritmy

Needleman-Wunsch
Průběh NW
  1. první a druhou sekvenci napíšeme na první sloupec a řádek tabulky (respektive)
  2. pro každou pozici v alignmentu s pomocí scoring matrix počítáme skóre, které bychom dostali:
    • při shodě
    • při neshodě
    • při inzerci nebo deleci
  3. z těchto možností vždy vybereme tu nejvyšší na napíšeme šipku příslušného směru
  4. postupujeme od konce alignmentu (políčka vpravo dole), a uvažujeme, odkud jsme se na současné políčko dostali
Smith-Waterman

Nejznámějším programem na hledání alignmentu je Clustal \(\Omega\) (kdysi Clustal W).

Multiple sequence alignment

Přednáška 5.

Když srovnáváme více sekvencí najednou, je to sice složitější, ale má to několik velkých výhod:

  1. výsledný alignment je přesnější
  2. data z alignmentu se dají použít pro fylogenetické studie
  3. máme větší šanci nalézt strukturně nebo funkčně významné AK
    • takové AK budou v sekvencích konzervované
  4. alignment slouží jako základ pro studie funkce proteinu
Jak dělat MSA
Fylogenetický strom (dendrogram)
Programy pro MSA
Poznámka bokem—HMM

HMM je probabilistický model, který se využívá k tvoření obdoby skórovacích tabulek—takových, které jsou alignovaným sekvencím šité na míru. Pro každou pozici ukládá HMM, s jakou pravděpodobností se tam vyskytne jaká AK, s jakou pravděpodobností na daném místě dojde k inzerci a s jakou k deleci. Z těchto údajů dokáže HMM předpovědět sekvence, které do daného modelu zapadají, ale také určit, jak dobře do modelu “sedí” nějaká zadaná sekvence.

Je samozřejmě velice důležité co možná nejlépe určit parametry HMM (ony pravděpodobnosti zmíněné výše). To se většinou dělá trénováním, kdy se HMM zadají nějaké sekvence a on z nich sám vypočítá potřebné pravdepodobnosti, které si poté uloží. HMM poté může rozhodnout, jak velká šance je, že je nějaká zadaná sekvence příbuzná s těmi, na kterých byl vytrénován.

Kvalita alignmentu

Hledání v databázích

Jak roste množství biologických dat, roste i nutnost umět v nich dobře vyhledávat; zpravidla se snažíme najít sekvenci podobnou nějaké jiné, kterou zrovna máme. Je tedy samozřejmé, že alignment je součástí procesu vyhledávání, a to často i lokální alignment (vyhledávání na základě podobných domén, motivů).

true positive (TP)
To, co jsme hledali a našli.
false positive (FP)
To, co jsme nehledali a přesto našli.
true negative (TN)
To, co jsme nehledali a nenašli.
false negative (FN)
To, co jsme hledali, ale nenašli.

Při vyhledávání je nutno brát ohledy na selektivitu a senzitivitu: obě tyto veličiny ale nelze optimalizovat zároveň.

senzitivita

Pravděpodobnost, s jakou budou nalezeny sekvence příbuzné k vyhledáváné sekvenci. Čím nižší je, tím méně skutečných výsledků program najde.

\[\text{senzitivita} = \frac{\text{TP}}{\text{TP} + \text{FN}}\]
selektivita

Pravděpodobnost, s jakou jsou nalezené sekvence příbuzné s vyhledávanou sekvencí. Čím nižší je, tím více nevýsledků se objevuje v rámci výsledku (\(\implies\) je těžší najít ve výsledcích zajímavé údaje).

\[\text{selektivita} = \frac{\text{TP}}{\text{TP} + \text{FP}}\]

Obdobné veličiny existují i pro analýzu nenalezených sekvencí.

specifita

Udává s jakou pravděpodobností nebudou nalezeny sekvence, které nejsou příbuzné s vyhledávanou sekvencí.

\[\text{specifita} = \frac{\text{TN}}{\text{TN} + \text{FP}}\]
negative predictive value (NPV)

Udává s jakou pravděpodobností budou nenalezené sekvence nepříbuzné s vyhledávanou sekvencí.

\[\text{NPV} = \frac{\text{TN}}{\text{TN} + \text{FN}}\]

Algoritmy

FASTA

V 80. létech byl vyvinut algoritmus FASTA, který využívá globální alignment. Funguje následovně:

  1. známé sekvence v databázi jsou rozděleny na krátké úseky o délce \(k\) a uloženy do vyhledávací tabulky
    • u proteinů \(k \in \{2, 3\}\)
    • u DNA \(4 \leq k \leq 6\)
  2. na stejně dlouhé úseky je nyní rozdělena i hledaná sekvence
  3. úseky z hledané sekvence jsou porovnány s úseky uloženými ve vyhledávací tabulce, jsou zaznamenány shodné úseky i jejich offsety
    • například úsek AB je v hledané sekvenci na začátku, ale AB ve vyhledávací tabulce začíná až na pátém místě, offset je tedy 5
  4. nejlepší matche dvojic úseků jsou rozšířeny a oskórovány příslušnou skórovací tabulkou (bez mezer)
  5. nejlepší takové úseky jsou naalignovány s hledanou sekvencí (tentokrát už s mezerami)
  6. výstupem jsou sekvence z databáze, jejichž úseky mají celkově nejvyšší skóre

Z výše zmíněného vyplývá, jaká je největší nevýhoda FASTA algoritmu. Může se stát, že FASTA některé příbuzné sekvence nenajde—konkrétně ty, které s tou hledanou nemají \(k\) identit v řadě. Jsou totiž srovnávány úseky o délce \(k\) a v bodě 3. postupují jen úseky 100% shodné s nějakým úsekem hledané sekvence.

BLAST

V 90. létech následoval algoritmus BLAST (Basic Local Alignment Search Tool), který funguje na bázi lokálního alignmentu.

Funkce BLASTu
  1. známé sekvence v databázi jsou rozděleny na úseky délky \(k\), tzv. slova (words)
    • u proteinů je často \(k = 3\)
  2. na stejně dlouhé úseky je nyní rozdělena i hledaná sekvence
  3. slova z hledané sekvence jsou porovnávána se slovy získanými ze sekvencí v databázi a podobnosti jsou oskórovány tabulkou (bez mezer); jsou vybrána taková slova z databáze, která dosáhnou předem nadefinovaného minimálního skóre (threshold)
    • pro proteiny se většinou používá běžná Blosum 62 tabulka
  4. vybraná slova (hity) jsou rozšířována dokud skóre jejich alignmentu roste, dál postupují opět jen dvojice slov s určitým skóre, tzv. high scoring pairs (HSPs)
    • rozšiřování trvá dlouho, proto se k němu většinou přistupuje pouze tehdy, když jsou na najité sekvenci dva hity nedaleko od sebe
    • dvojicí slov je myšlen pár [slovo z hledané sekvence + odpovídající slovo z databáze slov známých sekvencí]
  5. výstupem jsou HSPs seřazené podle svého skóre, je u nich dostupná i E-value

Základní rozdíl oproti FASTA tkví v bodě 3. Nejsou vybrána pouze 100% shodná slova, nýbrž všechna slova, která dosáhnou určitého bodového ohodnocení.

Algoritmus BLAST se vyskytuje v několika verzích, mnohé z nich jsou na internetu, například zde.

Druhy BLASTu

Srovnání FASTA a BLAST

Výhody BLASTu
Výhody FASTA

Existují také SSearch a GSearch, což jsou rigorózní globální/lokální alignmentovací algoritmy. Jejich běh trvá hodiny.

Parametry významnosti alignmentu

Z-score

Říká nám, jak moc je naše skóre odlišné od toho průměrného. \(\text{ZS} > 15\) je statisticky významné, pro \(5 \leq \text{ZS} \leq 15\) se pravděpodobně jedná o homology a při \(\text{ZS} < 5\) sekvence sice mohou, ale nemusí být homologní.

Postup výpočtu
  1. uděláme alignment dvou sekvencí a zaznamenáme skóre
  2. jednu sekvenci náhodně přeházíme
  3. znovu uděláme alignment a zaznamenáme skóre
  4. spočítáme průměr a standardní odchylku skóre
\[\text{Z-score} = \frac{\text{první skóre} - \text{průměr skóre}}{\text{standartní odchylka}}\]
P-value

Existují dvě různé definice, přičemž druhá z nich lépe odpovídá realitě a poskytuje lepší výsledky.

  1. pravděpodobnost, že alignment nepříbuzných sekvencí (FP hit) bude mít stejné nebo vyšší skóre
  2. pravděpodobnost, že bude stejného nebo vyššího skóre dosaženo náhodou

Rozdělení skóre není normální (podle Gaussovy křivky), ale odpovídá EVD křivce (extreme value distribution). Při normálním rozdělení by docházelo k přeceňování významu dosažených skóre.

Pro skóre \(S > x\) platí

\[\text{P-value} = 1 - e^{-e^{-\lambda (x - u)}},\]

kde

  • \(u\) je charakteristická hodnota, \(u = Kmn / \lambda\)
  • \(m, n\) jsou délky sekvencí
  • \(K\) je konstanta
  • \(\lambda\) je “decay factor”

\(K\) a \(\lambda\) se dají spočítat ze skórovací tabulky.

E-value

Předpokládaný počet náhodných (FP) sekvencí se stejným nebo vyšším skóre v databázi o dané velikosti. Udává něco jako šum, chceme tuto hodnotu tedy co nejnižší.

\[\text{E-value} = \text{P-value} \cdot \text{velikost databáze}\]

Cutoff skóre v BLASTu udává, kolik lze v databázi o dané velikosti průměrně čekat FP. Je to vlastně způsob vyvažování selektivity a senzitivity (nižší cutoff zvyšuje selektivitu).

Profilové algoritmy

Přednáška 6.

BLAST přistupuje ke všem sekvencím stejně, existují ale i citlivější metody—profilové.

Profily
\[\text{profilové skóre} = 10 \cdot \sum_{p \in \text{pozice}} (\text{četnost AK na pozici } p) \cdot (\text{hodnota z tabulky})\]

Zroku 1997 pochází PSI-BLAST (position specifix iterative BLAST). Oproti běžnému BLASTu používá position specific scoring matrix (PSSM), což je tabulka obsahující specifická skóre pro každou pozici v sekvenci.

PSI-BLAST
  1. průběh jako BLAST, z nejlepších výsledných alignmentů je vytvořena PSSM
  2. je spuštěno další kolo BLASTu, pro počítání skóre je ale použita vypočítaná PSSM
    • po konci druhého kola je vytvořena nová PSSM
  3. GOTO 2 (dokud nacházíme nové hity)

Z roku 2009 je CS/CSI BLAST, context-specific iterative BLAST.

CS/CSI BLAST

Poslední profilovou metodou jsou HMM, hidden Markov models.

HMM

Analýza sekvencí

Co dělat, když vyhledávání v databázích nepřineslo nic zajímavého? Jak přesto nějak využít sekvenci, kterou máme?

Co dělat se sekvencí?

Aneb, ano, máme co dělat, i když nám MSA nic moc neprozradil.

Hledání motivů

PROSITE
profile

Kvantitativní popis toho, jak vypadá sekvence—udání vyskytujících se AK a frekvence výskytu. Většinou se jedná o domény.

pattern

Funguje podobně jako regex—udává, které AK se (ne)můžou vyskytovat na daném místě, případně kolikrát.

1
2
[STAIV]-{ERDL}-[LIVMF]-[LIVM]-D-
-[DSTA]-G-[LIVMFC]-X(2,3)-[DNH]

AK jsou označeny jednopísmenným kódem, mezi jednotlivými pozicemi jsou pomlčky. V hranatách závorkách jsou AK vyskytující se na určité pozici, naopak ve složených jsou AK, které se na ni nevyskytují. Číslo v závorce udává počet pozic.

Pattern jako jediný dovede jednoznačně přidělit či vyloučit motiv.

Další databáze motivů

Další možnosti analýzy sekvencí

Druhy posttranslačních modifikací
Hledání posttranslačních modifikací
Zjišťování buněčné lokalizace
Určování membránových proteinů
Určování promotorových oblastí
Další nástroje k analýze sekvencí

Databáze

Databáze jsou strukturované soubory dat v počítači, které je možné prohledávat, měnit a ukládat. Zakládají se z důvodů organizace a zálohování dat, a proto, aby měl k datům kdokoli relativně jednoduchý přístup.

Vlastnosti databáze

V databázích nejsou uložena jen data o proteinech:

Strukturní databáze

Způsoby získávání dat
TODO
Doplnit odkazy na zápisky ze strukturní biologie (až zde budou).

PDB

PDB (protein data bank) je strukturní databáze.

Historie PDB

Soubory jsou v PDB uloženy ve formátu .pdb. Ten má dvě části; první popisuje, o jakou strukturu se jedná, druhá popisuje už samotnou strukturu (rozložení atomů a vazeb v prostoru). Ve sloupcích jsou pak zapsaná různá další data, viz slide. Temperature factor určuje plochu, kde se popisovaný atom vyskytuje; buďto důsledkem nepřesnosti našich měření, či jeho dynamikou.

V databázích nejsou uloženy jen struktury samotné, ale i daší doplňující informace, například:

Problémy databáze PDB
Problémy .pdb formátu

Existují ale nové strukturní formáty, jako mmCIF nebo XML, které jsou pro počítače dobře čitelné.

Strukturní alignment

Přednáška 7.

Struktura proteinu je lépe konzervovaná, než sekvence—struktura totiž určuje jeho funkci, jejíž změna je jen zřídkakdy výhodná, naproti tomu i různé sekvence mohou mít podobnou strukturu, a tedy funkci.

Proč se zajímat o stukturu?

Najít strukturní alignment je složité (NP-složité), navíc ani optimální alignment (podle nějaké naší metriky) nemusí odpovídat reálným biologickým poznatkům.

Postup strukturního alignmentu
  1. najdeme nějaký alignment pomocí heuristických metod
  2. optimalizujeme jej dle předem stanovených kritérií
  3. zhodnotíme jeho statistickou významnost

ad 1) Toto lze dělat několika způsoby:

ad 2) Optimalizovány většinou bývají superpozice atomů. Superpozice je vzdálenost dvou \(\ce{C\alpha}\), která je pak přes všechny \(\ce{C\alpha}\) měřená jako RMSD (root mean square distance). Hledají se pak takové konformace/rotace, bylo RMSD minimalizováno.

\[\text{RMSD} = \sqrt{\frac{\sum_i d_i^2}{N}},\]

kde \(d\) je (Euklidovská) vzdálenost dvou atomů \(\ce{C\alpha}\) a \(N\) je počet atomů \(\ce{C\alpha}\).

ad 3) RMSD je k hodnocení statistické významosti nevhodné, protože je to globální parametr citlivý na lokální změny a protože koreluje s délkou alignmentu. Existuje ale několik alternativ:

Metody (stránky, algoritmy)

Klasifikace proteinů

Strukturní alignment lze využít k tvorbě systému struktur (většinou podle domén). Takovýchto “opakovaných” struktur je konečné množství, proto se vyplatí je klasifikovat.

doména
Někdy je uvažována jako jednotka evoluce. Je globulární, při foldingu nezávislá na zbytku proteinu, má více kontaktů uvnitř sebe než se zbytkem proteinu. Může se vyskytovat i samostatně.
Klasifikační systémy

Jak je ze slidů vidět, skoro třetina známých super-rodin spadá do deseti foldovacích skupin. Konkrétně TIM barrel se často vyskytuje u struktur, které mohou mít mnoho různých enzymatických funkcí. Není to ale možno říct s jistotou, stejně jako u jiných složitých struktur.

Přednáška 8.

Predikce struktury

Primární struktura (sekvence) proteinu bývá často určena experimentálně, můžeme se tedy pokusit predikovat vyšší struktury. Tato predikce nebývá příliš přesná, mívá tzv. confidence level, který udává, jak moc je odhad pravděpodobný.

Anfinsen ukázal (1973), že se ribonukleáza po denaturaci sama renaturuje tak, že je schopna vykonávat svou původní funkci a z toho usoudil, že veškerá informace potřebná pro zaujetí struktury je obsažena v sekvenci.

Určení struktury ze sekvence je ale výpočetně velice náročné a někdy to ani není možné.

Intrinsically disordered proteins

Proteiny (nebo jejich části), které nemají v nepřítomnosti vazebného partnera nebo ligandu pevnou sekundární a terciární strukturu.

Proč jsou zajímavé?

V rámci proteinu jdou části bez pevné struktury často alespoň přibližně poznat, protože mají několik specifických vlastností.

Vlastnosti oblastí bez struktury
Predikce oblastí bez struktury

Predikce sekundární struktury

Často chceme určit, který druh SS se v proteinu vyskytuje nejčastěji, případně na kterém místě je jaká SS, abychom podle toho mohli vylepšit alignment, či abychom dané informace využili při stavění kompletního 3D modelu proteinu. Druhy SS většinou rozlišujeme pouze tři: helix, list a “zbytek”.

Metody dříve
Metody dnes
SS propensity

Udává, v jaké SS se daná AK nejčastěji vyskytuje; to zjistíme z experimentálně naměřených dat.

\[\text{propensita } X \text{ k helixu} = \frac{\text{frekvence } X \text{ v helixu}}{\text{frekvence } X}\]
Průkopníci

Trochu lepší výsledky než Chou-Fasman má metoda GOR, která sice také počítá propensities pro všech 20 AK na určité pozici, ale výpočty u ní závisí i na 16 okolních AK. Výsledná tabulka s čísly je tedy \(20 \times 17\), místo \(20 \times 1\).

Moderní metody
Vsuvka

Arteficiální neurální sítě (ANN) jsou adaptivní systémy založené na biologickém modelu nervové soustavy. Dají se trénovat: máme určitý test dataset, na kterém daná ANN optimalizuje své parametry.

Kromě ANN se používají i metody konsenzu: kombinace několika různých metod pro dosažení optimálního výsledku. Například JPRED a NPS.

Predikce membránových proteinů

Charakteristiké vlastnosti MP
Predikce MP

Predikce je komplikována tím, že ne všechny helixy procházejí celou membránou: existují přerušované helixy, které jsou přerušeny uvnitř membrány, a reentrant loops, což jsou helixy, které se vrací zpět na stranu, ze které vyšly.

Beta barelům je věnována menší pozornost, jelikož je jich málo a jsou často bakteriální či mitochondriální.

Vlastnosti beta barelů

Homologní modelování

Homologní modelování umožňuje predikci 3D struktury proteinu na základě evoluční příbuznosti (homologie) s proteinem, jehož strukturu už známe (templátem). Ta je většinou stanovena pomocí sequence alignmentu.

Předpokládáme, že určitý sekvenční motiv má dobře známou strukturu, a není tak důvod, aby podobný protein se stejnou sekvencí měl úplně jinou strukturu.

Postup
  1. najdeme příbuzné proteiny
  2. vybereme z nich vhodný templát
  3. uděláme alignment templátu a modelu
  4. postupně tvoříme model (4.1 model building) a kontrololujeme jeho kvalitu (4.2 model evaluation)

ad 1. Nalezení příbuzných proteinů) Hledáme ve velkých databázích (pomocí BLAST, FASTA, PSI-BLAST), nejlépe včetně strukturních (PDB, pomocí HMM). Nevhodný templát nám zkazí celou budoucí práci, proto je důležité volit dobře.

ad 2. Výběr templátu) Obecně čím vyšší %SI, tím lepší daný templát je.

Strategie výběru

Lze vybrat i více templátů, nebo použít různé templáty pro různé části proteinu.

Validace výběru

ad 3. Alignment) Toto je nejdůležitější část celého procesu. MSA algoritmy předpokládají, že jsou jejich proteiny homologické, proto je důležité dobře volit templát, aby vzniklý model nebyl nesmyslný.

Je dobré alignment ručně upravit (pokud například známe konzervovaná aktivní místa), případně k jeho tvorbě využít znalost SS. Zbytek informací viz MSA.

ad 4.1 Model building) Na základě alignmentu můžeme vytvořit 3D model sekvence; záleží hlavně na kvalitě templátu, existující programy a modelovací postupy se přesností příliš neliší. Počátečním modelem bývají SS templátu, ve kterých se poté doplňují nebo upravují AK.

Doplnění modelu

Model je nutné nějak zkontrolovat; nikdy ale nebude zcela odpovídat pravdě. Časté chyby (množství a závažnost roste s klesající %SI): chybný rotamer či pozice AK, chyby v oblastech s nedostatečnou homologií (smyčky), chyby v alignmentu.

ad 4.2 Model evaluation) Modely se hodnotí jednodušeji než alignmenty, proto se často na chybu přijde až v této fázi. Nejlepší je použít WhatCheck, který zkontroluje celou škálu veličin, které nás zajímají.

Programy pro homologní modelování

WhatIf a Modeller vyžadují větší zkušenosti, jsou ale věrohodnější.

Fold recognition

Fold recognition metody používáme, když neumíme najít templát se známou strukturou, který by byl homologní k naší sekvenci. Snažíme se najít nehomologní proteiny, které přesto mají alespoň část své struktury shodnou s částí struktury naší sekvence. V tom nám pomáhá to, že dovolených foldů je omezené množství a stejné foldy se často opakují (na 130000 známých strukturách je jen 1375 různých foldů)—pokud uvažujeme nějaký protein bez detekovatelného %SI, ze 70–80% bude mít fold, který už je známý.

Existují dva základní postupy, které se liší svou metodikou i úspěšností: profile a threading metody.

Profile metody
  1. uděláme profil naší sekvence
    • každá AK zařazena do jedné z 18 skupin na základě predikce její oblíbené SS (helix, beta list, zbytek) a toho, kde se nachází (uvnitř, na povrchu, atd.—6 skupin)
  2. stejný profil uděláme pro všechny známé sekvence
    • z 3D informací (struktura) tedy tvoříme 1D informace (profil)
  3. pro takto vzniklé profily počítáme alignment a z něj pak predikujeme vlastnosti struktury naší sekvence
    • například programy 3D PSSM, Phyre

Na rozdíl od profile metod se threading metody nesnaží ze známých struktur vytvořit profily (3D \(\rightarrow\) 1D), ale naopak chtějí z naší sekvence získat nějaké informace o struktuře (1D \(\rightarrow\) 3D).

Postup
  1. na naší sekvenci “navlékáme” nějaký fold z databáze foldů (tzv. threading)
  2. tento fold zkoušíme na naší sekvenci různě naalignovat a pro každý alignment spočítáme jeho skóre
    • skóre se většinou počítá energetickou funkcí, která optimalizuje energii párových interakcí a solvatace
    • oskórováním zjistíme, jak moc je naše sekvence kompatibilní se strukturou, kterou jsme jí přisoudili
  3. výsledný fold a alignment použijeme pro tvorbu modelu, která probíhá podobně jako při homologním modelování

Threading metody jsou sofistikovanější než profile metody a přináší lepší výsledky (například program Threader2). Alfa proteiny (proteiny s více helixy než beta listy) se predikují lépe než beta proteiny, protože alfa helixy tvoří lokální vodíkové můstky, zatímco beta listy tvoří vodíkové můstky spíše mezi AK, které jsou od sebe v sekvenci více vzdálené.

Ab initio predikce

Homologní modelování ani fold recognition nemohou uspět, pokud má protein zcela nový fold. Když hledáme takovýto nový fold, řešíme vlastně nejobecnější problém foldingu (hledání struktury pouze se znalostí dané sekvence).

Předpokládáme, že správně nafoldovaný protein bude mít nejnižší energii; náš problém tedy převedeme na problém hledání struktury s nejnižší energií.

Problémy s hledáním struktury
Způsoby hledání struktury

Jeden z nejlepších nástrojů pro predikci struktur je Rosetta. \(\ce{C\alpha}\) RMSD je méně než 1,5Å mezi modelem a experimentálně určenou strukturou. Rosetta kombinuje fragmenty, používá NMR a energetické funkce.

CASP

Predikce interakce

Proteiny, které spolu interagují, se obvykle vyvíjejí společně a synchronně; mutace v jednom z proteinů jsou kompenzovány mutacemi v druhém. Používá se proto in silico dvouhybridní systém: udělá se MSA obou proteinů a pokud vykazují podobnou frekvenci mutací, může se jednat o interakční pár.

Nástroje na predikci interakcí
TODO
Udělat pořádek v nadpisech a hierarchii: například na tomto místě bylo srhnutí predikce struktury.

Souvislost struktury a funkce

Ze sekvence proteinu lze (s omezenou přesností, viz předchozí část) odvodit jeho strukturu. Podobně lze, opět s omezenou přesností, z jeho struktury odvodit jeho funkci.

Hlavní paradigma tedy zní: podobná sekvence \(\iff\) podobná struktura \(\iff\) podobná funkce.

Co je funkce? (příklad: alkohol dehydrogenása)

Existuje databáze Gene Ontology, která ukládá definované atributy genů a proteinů; popisuje proteiny na třech úrovních: molecular function, biological process, cellular component.

Bohužel, hlavní paradigma ne vždy funguje; jeden protein (jedna struktura) může mít více různých funkcí a jedna funkce může být splněna několika různými strukturami.

TODO
Jak je to s lysozymem a alpha-lactalbuminem? Jsou nebo nejsou to enzymy?
Vady v paradigmatu

Hledání funkce

Zjišťování protein-protein interakcí

Solvent-accessible surface area

Solvent-accessible surface area (ASA) je metoda, kterou se zjišťuje “povrch” proteinu (viz slide).

Využití ASA

Enzymy

Zjišťování funkce enzymů je pro vědce běžně nejdůležitější. Práci nám někdy ulehčuje to, že určité motivy či části sekvencí se vyskytují pouze ve spojitosti s určým ligandem nebo konkrétní fukncí.

Speciální případy motivů

Motivy obecně bývají spíše vzácné, protože jsou energeticky nevýhodné; když už tedy v proteinu jsou, je to často v jeho aktivním místě (kde jsou nezbytné).

HTH motiv
Katalytická triáda
NESTS
Levotočivý helix

Detekce ligand-vazebných míst

Základní způsoby detekce

Pokud najdeme podobnost v ligand-vazebných místech dvou různých proteinů, dá se předpokládat, že váží podobné ligandy a mají podobnou funkci. Vazebná místa proto popisujeme matematickými metodami—získáme real sphere harmonic coefficient—a srovnáváme tento koeficient mezi proteiny.

promiskuita
Jev, kdy se některé ligandy (např. ATP, NAD) na proteiny vážou v mnoha různých konformacích, viz slide.
virtual screening

Bioinformatická metoda, jejímž cílem je odhadnout, jak dobře se daná nízkomolekulární sloučenina váže na protein; lze ji tedy v principu využít k predikci ligandů pro danou strukturu. Pro svou funkci používá docking (viz níže).

Je využívána farmaceutickými firmami, které navrhnou mnoho takovýchto látek, pro všechny udělají virtual screening a z nich vyberou několik nejlepších kandidátů, kteří půjdou do dalších testů.

docking
Molecular docking je proces, který se pokouší nalézt nízkoenergetické vazebné módy dvou molekul (obvykle proteinu a jeho ligandu, případně dvou proteinů). Je to spíše chemická ne bioinformatická metoda.
Postup při dockingu

Někdy lze k predikci vazebných partnerů využít i strukturní informace.

META
Tak, a teď si dejte čokoládu.
⋅ 𝓔 ⋅