Algoritmus Needleman – Wunsch - Needleman–Wunsch algorithm

TřídaSekvenční zarovnání
Nejhorší případ výkon
Nejhorší případ složitost prostoru

The Algoritmus Needleman – Wunsch je algoritmus použito v bioinformatika na sladit protein nebo nukleotid sekvence. Byla to jedna z prvních aplikací dynamické programování porovnat biologické sekvence. Algoritmus vyvinuli Saul B. Needleman a Christian D. Wunsch a byl publikován v roce 1970.[1] Algoritmus v zásadě rozděluje velký problém (např. Celou sekvenci) na řadu menších problémů a využívá řešení menších problémů k nalezení optimálního řešení většího problému.[2] To je také někdy označováno jako optimální shoda algoritmus a globální zarovnání technika. Algoritmus Needleman – Wunsch je stále široce používán pro optimální globální zarovnání, zvláště když je kvalita globálního zarovnání nejdůležitější. Algoritmus přiřadí skóre každému možnému zarovnání a účelem algoritmu je najít všechny možné zarovnání mající nejvyšší skóre.

Obrázek 1: Needleman-Wunsch párové zarovnání sekvence
Výsledky: Sekvence Nejlepší zarovnání --------- ---------------------- GCATGCU GCATG-CU GCA-TGCU GCAT-GCUGATTACA G-ATTACA G -ATTACA G-ATTACA Interpretace inicializačního kroku: Na výše uvedeném obrázku lze interpretovat sloupec zcela vlevo (před každou sekvenci, označenou jako + zde, „popisovač“): Zarovnání: + GCATGCU + GATTACAScore: 0 // Zpracovat shody zpracovat, nevyhraje žádné skóre Zarovnání: + GCATGCU + GATTACAScore: 0 // 1 mezera, skóre −1 Zarovnání: + GCATGCU + GATTACAScore: 0 // 2 mezery, skóre −2 Zarovnání: + GCATGCU + GATTACAScore: 0 // 3 mezery, skóre −3 Zarovnání: + GCATGCU + GATTACAS skóre: 0 // 4 mezery, skóre −4 ... Totéž lze udělat pro nejvyšší řádek.

Úvod

Tento algoritmus lze použít pro libovolné dva struny. V této příručce budou použity dvě malé DNA sekvence jako příklady, jak je znázorněno na obrázku:

GCATGCUGATTACA

Konstrukce mřížky

Nejprve vytvořte mřížku, jako je ta, která je znázorněna na obrázku 1 výše. Začněte první řetězec v horní části třetího sloupce a druhý řetězec začněte na začátku třetí řady. Vyplňte zbytek záhlaví sloupců a řádků podle obrázku 1. V mřížce by zatím neměla být žádná čísla.

GCATGCU
 
G
A
T
T
A
C
A

Výběr bodovacího systému

Dále se rozhodněte, jak zaznamenat každou jednotlivou dvojici písmen. Pomocí výše uvedeného příkladu může být jeden kandidát na zarovnání:
12345678
GCATG-CU
G-ATTACA
Písmena se mohou shodovat, nesouhlasit nebo se shodovat s mezerou (vymazání nebo vložení (indel )):

  • Shoda: Dvě písmena v aktuálním indexu jsou stejná.
  • Neshoda: Dvě písmena v aktuálním indexu se liší.
  • Indel (INsertion or DELetion): Nejlepší zarovnání zahrnuje zarovnání jednoho písmena k mezeře v druhém řetězci.

Každému z těchto scénářů je přiřazeno skóre a součet skóre všech párování je skóre celého kandidáta na zarovnání. Pro přidělování skóre existují různé systémy; některé z nich jsou uvedeny v dokumentu Bodovací systémy níže. Prozatím systém používaný Needlemanem a Wunschem[1] bude použito:

  • Shoda: +1
  • Neshoda nebo Indel: -1

U výše uvedeného příkladu by skóre zarovnání bylo 0:
GCATG-CU
G-ATTACA

+−++−−+− −> 1*4 + (−1)*4 = 0

Vyplnění tabulky

Začněte nulou ve druhém řádku, druhém sloupci. Procházejte buňkami řádek po řádku a vypočítávejte skóre pro každou buňku. Skóre se vypočítá porovnáním skóre buněk sousedících s levou, horní nebo levou horní (úhlopříčkou) buňky a přidáním příslušného skóre pro shodu, nesoulad nebo indel. Vypočítejte skóre kandidátů pro každou ze tří možností:

  • Cesta z horní nebo levé buňky představuje párování indelů, takže vezměte skóre levé a horní buňky a ke každému z nich přidejte skóre pro indel.
  • Diagonální cesta představuje shodu / nesoulad, takže vezměte skóre levé horní diagonální buňky a přidejte skóre pro shodu, pokud se odpovídající základy (písmena) v řádku a sloupci shodují, nebo skóre pro nesoulad, pokud se neshodují.

Výsledné skóre pro buňku je nejvyšší ze tří kandidátských skóre.

Vzhledem k tomu, že pro druhý řádek nejsou žádné buňky „nahoře“ nebo „vlevo nahoře“, lze k výpočtu skóre každé buňky použít pouze existující buňku nalevo. Proto je pro každý posun doprava přidán -1, protože to představuje indel z předchozího skóre. Výsledkem je, že první řádek je 0, −1, −2, −3, −4, −5, −6, −7. Totéž platí pro první sloupec, protože lze použít pouze stávající skóre nad každou buňkou. Výsledná tabulka je tedy:

GCATGCU
0−1−2−3−4−5−6−7
G−1
A−2
T−3
T−4
A−5
C−6
A−7

První případ se stávajícími skóre ve všech 3 směrech je průsečík našich prvních písmen (v tomto případě G a G). Okolní buňky jsou níže:

G
0−1
G−1X

Tato buňka má tři možné součty kandidátů:

  • Diagonální soused vlevo nahoře má skóre 0. Párování G a G je shoda, takže přidejte skóre zápasu: 0 + 1 = 1
  • Horní soused má skóre −1 a pohyb odtud představuje indel, takže přidejte skóre pro indel: (−1) + (−1) = (−2)
  • Levý soused má také skóre −1, představuje indel a také produkuje (−2).

Nejvyšší kandidát je 1 a zadá se do buňky:

G
0−1
G−11

Musí být také zaznamenána buňka, která poskytla nejvyšší skóre kandidáta. V dokončeném diagramu na obrázku 1 výše je toto znázorněno jako šipka z buňky v řádku a sloupci 3 do buňky v řádku a sloupci 2.

V dalším příkladu představuje diagonální krok pro X i Y nesoulad:

GC
0−1−2
G−11X
A−2Y

X:

  • Nahoře: (−2) + (- 1) = (−3)
  • Vlevo: (+1) + (- 1) = (0)
  • Vlevo nahoře: (−1) + (- 1) = (−2)

Y:

  • Nahoře: (1) + (- 1) = (0)
  • Vlevo: (−2) + (- 1) = (−3)
  • Vlevo nahoře: (−1) + (- 1) = (−2)

Pro X i Y je nejvyšší skóre nula:

GC
0−1−2
G−110
A−20

Nejvyššího skóre kandidáta lze dosáhnout dvěma nebo všemi sousedními buňkami:

TG
T11
A0X
  • Nahoře: (1) + (- 1) = (0)
  • Vlevo nahoře: (1) + (- 1) = (0)
  • Vlevo: (0) + (- 1) = (−1)

V tomto případě musí být všechny směry dosahující nejvyššího kandidátského skóre zaznamenány jako možné buňky počátku v hotovém diagramu na obrázku 1, např. v buňce v řádku a sloupci 7.

Vyplněním tabulky tímto způsobem získáte skóre nebo všechny možné kandidáty na zarovnání, skóre v buňce vpravo dole představuje skóre zarovnání pro nejlepší zarovnání.

Trasování šipek zpět k původu

Označte cestu z buňky vpravo dole zpět do buňky vlevo nahoře podle směru šipek. Z této cesty je sekvence vytvořena podle těchto pravidel:

  • Diagonální šipka představuje shodu nebo nesoulad, takže písmeno sloupce a písmeno řádku buňky počátku budou zarovnány.
  • Vodorovná nebo svislá šipka představuje indel. Vodorovné šipky zarovnají mezeru („-“) na písmeno řádku („boční“ sekvenci), vertikální šipky zarovnají mezeru na písmeno sloupce („horní“ sekvence).
  • Pokud si můžete vybrat z více šipek, představují rozvětvení zarovnání. Pokud dvě nebo více větví všechny patří k cestám zprava dole do buňky vlevo nahoře, jsou stejně životaschopné zarovnání. V tomto případě si poznamenejte cesty jako samostatné kandidáty na zarovnání.

Podle těchto pravidel jsou kroky pro jednoho možného kandidáta na zarovnání na obrázku 1:

U → CU → GCU → -GCU → T-GCU → AT-GCU → CAT-GCU → GCAT-GCUA → CA → ACA → TACA → TTACA → ATTACA → -ATTACA → G-ATTACA             ↓ (větev) → TGCU → ... → TACA → ...

Bodovací systémy

Základní schémata bodování

Nejjednodušší schémata bodování jednoduše dávají hodnotu pro každý zápas, nesoulad a indel. Výše uvedený podrobný průvodce používá match = 1, mismatch = −1, indel = −1. Čím nižší je skóre zarovnání, tím větší je upravit vzdálenost, pro tento bodovací systém člověk chce vysoké skóre. Další bodovací systém může být:

  • Shoda = 0
  • Indel = 1
  • Neshoda = 1

Pro tento systém bude skóre zarovnání představovat vzdálenost úprav mezi dvěma řetězci. Pro různé situace lze navrhnout různé systémy hodnocení, například pokud jsou mezery považovány za velmi špatné pro vaše zarovnání, můžete použít systém hodnocení, který silně penalizuje mezery, například :

  • Shoda = 0
  • Neshoda = 1
  • Indel = 10

Zkuste si to.

Matice podobnosti

Složitější systémy skórování připisují hodnoty nejen pro typ úpravy, ale také pro příslušná písmena. Například shoda mezi A a A může být dána 1, ale shoda mezi T a T může být dána 4. Zde (za předpokladu prvního bodovacího systému) je kladen větší důraz na shodu Ts než na As, tj. Shodu Ts se předpokládá, že je pro zarovnání významnější. Toto vážení založené na písmenech platí také pro neshody.

Abychom představili všechny možné kombinace písmen a jejich výsledné skóre, používá se matice podobnosti. Matice podobnosti pro nejzákladnější systém je reprezentována jako:

AGCT
A1-1-1-1
G-11-1-1
C-1-11-1
T-1-1-11

Každé skóre představuje přechod z jednoho z písmen, které buňka odpovídá druhému. To tedy představuje všechny možné shody a delece (pro abecedu ACGT). Všimněte si, že všechny zápasy jdou po diagonále, také nemusí být vyplněna všechna tabulka, pouze tento trojúhelník, protože skóre je vzájemné. = (Skóre pro A → C = skóre pro C → A). Pokud implementujete pravidlo T-T = 4 shora, vytvoří se následující matice podobnosti:

AGCT
A1−1−1−1
G−11−1−1
C−1−11−1
T−1−1−14

Statisticky byly zkonstruovány různé skórovací matice, které dávají váhu různým akcím vhodným pro konkrétní scénář. Mít vážené skórovací matice je zvláště důležité při srovnávání proteinové sekvence kvůli měnící se frekvenci různých aminokyselin. Existují dvě široké rodiny bodovacích matic, každá s dalšími úpravami pro konkrétní scénáře:

Penalizace za mezeru

Při zarovnávání sekvencí často existují mezery (tj. Indely), někdy velké. Biologicky je větší pravděpodobnost, že dojde k velké mezeře, jako k jedné velké deleci na rozdíl od více jednotlivých delecí. Proto by dva malí indélové měli mít horší skóre než jeden velký. Jednoduchý a běžný způsob, jak toho dosáhnout, je velké skóre začátku mezery pro nový indel a menší skóre prodloužení mezery pro každé písmeno, které rozšiřuje indel. Například new-indel může stát -5 a extend-indel může stát -1. Tímto způsobem zarovnání, jako například:

GAAAAAATG - A-A-T

který má několik stejných zarovnání, některé s několika malými zarovnáními se nyní zarovnají jako:

GAAAAAATGAA ---- T

nebo jakékoli vyrovnání s preferencí 4 dlouhé mezery před několika malými mezerami.

Pokročilá prezentace algoritmu

Skóre pro zarovnané znaky jsou specifikovány a matice podobnosti. Tady, S(A, b) je podobnost znaků A a b. Používá lineární trest za mezeru, tady volal d.

Například pokud byla matice podobnosti

AGCT
A10−1−3−4
G−17−5−3
C−3−590
T−4−308

pak zarovnání:

AGACTAGTTACCGA --- GACGT

s penalizací za mezeru −5 by měl následující skóre:

S(A, C) + S(G, G) + S(A, A) + (3 × d) + S(G, G) + S(T, A) + S(T, C) + S(A, G) + S(C, T)
= −3 + 7 + 10 − (3 × 5) + 7 + (−4) + 0 + (−1) + 0 = 1

Chcete-li najít zarovnání s nejvyšším skóre, dvojrozměrným pole (nebo matice ) F je přiděleno. Položka v řádku i a sloupec j je zde označen. Pro každý znak je v řadě jeden řádek Aa jeden sloupec pro každý znak v pořadí B. Pokud tedy zarovnáváte sekvence velikostí n a m, množství použité paměti je v . Hirschbergův algoritmus drží pouze podmnožinu pole v paměti a používá prostor, ale jinak je podobný Needleman-Wunsch (a stále vyžaduje čas).

Jak algoritmus postupuje, bude přiřazeno jako optimální skóre pro zarovnání prvního znaků v A a první znaků v B. The princip optimality se poté použije takto:

  • Základ:
  • Rekurze založená na principu optimality:

Pseudokód algoritmu pro výpočet matice F proto vypadá takto:

d ← Gap penaltové skórepro i = 0 na délka(A) F (i, 0) ← d * ipro j = 0 na délka(B) F (0, j) ← d * jpro i = 1 na délka(A) pro j = 1 na délka(B) {Match ← F (i − 1, j − 1) + S (Ai, Bj) Smazat ← F (i − 1, j) + d Vložit ← F (i, j − 1) + d F (i, j) ← max(Porovnat, Vložit, Odstranit)}

Jednou F matice je vypočítána, položka dává maximální skóre ze všech možných zarovnání. Chcete-li vypočítat zarovnání, které ve skutečnosti dává toto skóre, začněte od buňky vpravo dole a porovnejte hodnotu se třemi možnými zdroji (Porovnat, Vložit a Odstranit výše), abyste zjistili, odkud pochází. Pokud odpovídá, pak a jsou zarovnány, pokud Smazat, pak je zarovnáno s mezerou, a pokud Vložit, pak je zarovnána s mezerou. (Obecně může mít více než jedna volba stejnou hodnotu, což vede k alternativnímu optimálnímu zarovnání.)

ZarovnáníA ← "" ZarovnáníB ← "" i ← délka(A) j ← délka(B)zatímco (i> 0 nebo j> 0) { -li (i> 0 a j> 0 a F (i, j) == F (i − 1, j − 1) + S (Ai, Bj)) {ZarovnáníA ← Ai + ZarovnáníA ZarovnáníB ← Bj + ZarovnáníB i ← i - 1 j ← j - 1} jiný -li (i> 0 a F (i, j) == F (i − 1, j) + d) {ZarovnáníA ← Ai + ZarovnáníA ZarovnáníB ← "-" + ZarovnáníB i ← i - 1} jiný    {AlignmentA ← "-" + AlignmentA AlignmentB ← Bj + ZarovnáníB j ← j - 1}}

Složitost

Výpočet skóre pro každou buňku v tabulce je úkon. Tedy časová složitost algoritmu pro dvě sekvence délky a je .[3] Ukázalo se, že je možné zlepšit provozní dobu za použití Metoda čtyř Rusů.[3][4] Vzhledem k tomu, že algoritmus vyplňuje tabulka je složitost prostoru .[3]

Historické poznámky a vývoj algoritmů

Původním účelem algoritmu popsaného Needlemanem a Wunschem bylo najít podobnosti v aminokyselinových sekvencích dvou proteinů.[1]

Needleman a Wunsch popisují svůj algoritmus výslovně pro případ, kdy je vyrovnání penalizováno pouze shodami a nesoulady a mezery nemají žádný trest (d= 0). Původní publikace z roku 1970 naznačuje rekurze.

Odpovídající algoritmus dynamického programování trvá kubický čas. Příspěvek také zdůrazňuje, že rekurze může pojmout libovolné vzorce penalizace mezery:

Faktor pokuty, číslo odečtené za každou vytvořenou mezeru, lze vyhodnotit jako překážku pro umožnění mezery. Faktor pokuty může být funkcí velikosti a / nebo směru mezery. [strana 444]

Poprvé byl představen lepší dynamický programovací algoritmus s kvadratickou dobou chodu pro stejný problém (bez penalizace za mezeru)[5] David Sankoff v roce 1972. Podobné algoritmy kvadratického času byly objeveny nezávisle T. K. Vintsyukem[6] v roce 1968 pro zpracování řeči ("time warping" ), a Robert A. Wagner a Michael J. Fischer[7] v roce 1974 pro shodu řetězců.

Needleman a Wunsch formulovali svůj problém z hlediska maximalizace podobnosti. Další možností je minimalizovat upravit vzdálenost mezi sekvencemi, zavedené Vladimir Levenshtein. Ukázal Peter H. Sellers[8] v roce 1974 byly oba problémy rovnocenné.

Algoritmus Needleman – Wunsch je stále široce používán pro optimální globální zarovnání, zvláště když je kvalita globálního sladění nanejvýš důležitá. Algoritmus je však drahý s ohledem na čas a prostor, úměrný součinu délky dvou sekvencí, a proto není vhodný pro dlouhé sekvence.

Nedávný vývoj se zaměřil na zlepšení časových a prostorových nákladů algoritmu při zachování kvality. Například v roce 2013 byl vytvořen Fast Optimal Global Sequence Alignment Algorithm (FOGSAA),[9] navrhl srovnání nukleotidových / proteinových sekvencí rychleji než jiné optimální metody globálního uspořádání, včetně algoritmu Needleman – Wunsch. Příspěvek tvrdí, že ve srovnání s algoritmem Needleman – Wunsch dosahuje FOGSAA časový zisk 70–90% u vysoce podobných nukleotidových sekvencí (s> 80% podobností) a 54–70% u sekvencí s 30–80% podobností.

Globální srovnávací nástroje využívající algoritmus Needleman – Wunsch

Aplikace mimo bioinformatiku

Počítačové stereofonní vidění

Stereo párování je zásadním krokem v procesu 3D rekonstrukce z dvojice stereofonních obrazů. Když byly obrázky opraveny, může být nakreslena analogie mezi seřazením nukleotidových a proteinových sekvencí a porovnáním pixelů patřící skenovat řádky, protože oba úkoly mají za cíl dosáhnout optimální korespondence mezi dvěma řetězci znaků. „Pravý“ obraz stereofonního páru lze považovat za mutovanou verzi „levého“ obrazu: šum a citlivost jednotlivých kamer mění hodnoty pixelů (tj. Substituce znaků); a jiný úhel pohledu odhaluje dříve uzavřená data a zavádí nové okluze (tj. vkládání a mazání znaků). V důsledku toho je díky drobným modifikacím algoritmu Needleman – Wunsch vhodný pro stereofonní shodu.[10] Ačkoli výkony z hlediska přesnosti nejsou nejmodernější, relativní jednoduchost algoritmu umožňuje jeho implementaci na vestavěné systémy.[11]

I když v mnoha aplikacích lze provést opravu obrazu, např. podle resekce kamery nebo kalibrace, to je někdy nemožné nebo nepraktické, protože výpočetní náklady na přesné modely oprav zakazují jejich použití v reálný čas aplikace. Žádný z těchto modelů navíc není vhodný, pokud se objektiv fotoaparátu zobrazuje neočekávaně zkreslení, jako jsou kapky vytvářené dešťovými kapkami, povětrnostními vlivy nebo prachem. Rozšířením algoritmu Needleman – Wunsch lze linku v „levém“ obrazu přiřadit ke křivce v „pravém“ obrazu, a to nalezením zarovnání s nejvyšším skóre v trojrozměrném poli (nebo matici). Pokusy prokázaly, že takové rozšíření umožňuje husté porovnávání pixelů mezi nerektifikovanými nebo zkreslenými obrazy.[12]

Viz také

Reference

  1. ^ A b C Needleman, Saul B. & Wunsch, Christian D. (1970). "Obecná metoda použitelná pro hledání podobností v aminokyselinové sekvenci dvou proteinů". Journal of Molecular Biology. 48 (3): 443–53. doi:10.1016/0022-2836(70)90057-4. PMID  5420325.
  2. ^ "bioinformatika". Citováno 10. září 2014.
  3. ^ A b C Wing-Kin., Sung (2010). Algoritmy v bioinformatice: praktický úvod. Boca Raton: Chapman & Hall / CRC Press. str. 34–35. ISBN  9781420070330. OCLC  429634761.
  4. ^ Masek, William; Paterson, Michael (únor 1980). Msgstr "Rychlejší úpravy výpočtového řetězce pomocí algoritmu". Journal of Computer and System Sciences. 20: 18–31. doi:10.1016/0022-0000(80)90002-1.
  5. ^ Sankoff D (1972). "Odpovídající sekvence pod omezeními mazání / vkládání". Sborník Národní akademie věd USA. 69 (1): 4–6. Bibcode:1972PNAS ... 69 .... 4S. doi:10.1073 / pnas.69.1.4. PMC  427531. PMID  4500555.
  6. ^ Vintsyuk TK (1968). "Diskriminace řeči dynamickým programováním". Kibernetika. 4: 81–88. doi:10.1007 / BF01074755. S2CID  123081024.
  7. ^ Wagner RA, Fischer MJ (1974). Msgstr "Problém s opravou řetězce na řetězec". Deník ACM. 21 (1): 168–173. doi:10.1145/321796.321811. S2CID  13381535.
  8. ^ Prodejci PH (1974). „K teorii a výpočtu evolučních vzdáleností“. SIAM Journal on Applied Mathematics. 26 (4): 787–793. doi:10.1137/0126070.
  9. ^ Chakraborty, Angana; Bandyopadhyay, Sanghamitra (29. dubna 2013). „FOGSAA: Rychlý optimální algoritmus globálního seřazení sekvence“. Vědecké zprávy. 3: 1746. Bibcode:2013NatSR ... 3E1746C. doi:10.1038 / srep01746. PMC  3638164. PMID  23624407.
  10. ^ Dieny R., Thevenon J., Martinez-del-Rincon J., Nebel J.-C. (2011) "Algoritmus inspirovaný bioinformatikou pro stereo korespondenci Mezinárodní konference o teorii a aplikacích počítačového vidění, 5. – 7. Března, Vilamoura - Algarve, Portugalsko.
  11. ^ Madeo S., Pelliccia R., Salvadori C., Martinez-del-Rincon J., Nebel J.-C. (2014) „Optimalizovaná implementace stereofonního vidění pro vestavěné systémy: aplikace na obrazy RGB a Infra-Red“. Deník zpracování obrazu v reálném čase ".
  12. ^ Thevenon, J; Martinez-del-Rincon, J; Dieny, R; Nebel, J-C (2012). Husté porovnávání pixelů mezi nerektifikovanými a zkreslenými obrázky pomocí dynamického programování. Mezinárodní konference o teorii a aplikacích počítačového vidění. Řím.

externí odkazy