SPAdes (software) - SPAdes (software)
Vývojáři | Státní univerzita v Petrohradu, Rusko Akademická univerzita v Petrohradě, Rusko University of California, San Diego, USA |
---|---|
Stabilní uvolnění | 3.12.0 / 14. května 2018 |
Úložiště | |
Operační systém | Linux, Mac OS |
Typ | Bioinformatika |
Licence | bezplatné použití |
webová stránka | cab.spbu.ru/software/spades/ |
SPAdes (Petrohrad genom assembler )[1] je shromáždění genomu algoritmus který byl navržen pro jednotlivé buňky a více buněk bakteriální datové sady. Proto nemusí být vhodný pro projekty velkých genomů.[1][2]
SPAdes pracuje s Ion Torrent, PacBio, Oxford Nanopore, a Illumina spárovaný konec, párové páry a jednotlivá čtení.[1]SPAdes byl integrován do Galaxie plynovody Guy Lionel a Philip Mabon.[3]
Pozadí
Studium genomu jednotlivých buněk pomůže sledovat změny, ke kterým dochází v DNA v průběhu času nebo s expozicí různým podmínkám. Navíc mnoho projektů jako Projekt lidského mikrobiomu a antibiotika objevu by velká výhoda přinesla Single-cell sekvenování (SCS).[4][5] SCS má výhodu oproti sekvenování DNA extrahované z velkého počtu buněk. Problém zprůměrování významných variace mezi buňkami lze překonat pomocí SCS.[6] Experimentální a výpočetní technologie jsou optimalizovány tak, aby umožňovaly vědcům sekvenovat jednotlivé buňky. Například amplifikace DNA extrahované z jedné buňky je jednou z experimentálních výzev. Pro maximalizaci přesnosti a kvality SCS je nutná jednotná amplifikace DNA. Bylo prokázáno, že použití více cyklů zesílení založených na žíhání a smyčkování (MALBAC ) pro amplifikaci DNA generuje menší zkreslení ve srovnání s polymerázovou řetězovou reakcí (PCR ) nebo zesílení vícenásobného posunutí (MDA).[7] Dále bylo uznáno, že výzvy, kterým SCS čelí, jsou spíše výpočetní než experimentální.[8] Aktuálně dostupný assembler, jako např Samet,[9] String Graph Assembler (SGA)[10] a EULER-SR,[11] nebyly navrženy tak, aby zvládly montáž SCS.[2] Sestavování dat z jedné buňky je obtížné kvůli nerovnoměrnému pokrytí čtením, změnám v délce vložky, vysokým úrovním chyb sekvenování a chimérický čte.[8][12][13] Proto byl k řešení těchto problémů navržen nový algoritmický přístup, SPAdes.
SPAdes montážní přístup
SPAdes používá k-mers pro sestavení iniciály de Bruijnův graf a v následujících fázích provádí graficko-teoretické operace, které jsou založeny na struktuře grafu, pokrytí a délkách sekvencí. Navíc iterativně upravuje chyby.[2]Fáze montáže v SPAdes jsou:[2]
- Fáze 1: konstrukce montážního grafu. SPAdes zaměstnává multisized de Bruijn graf (viz níže), který detekuje a odstraňuje boule / bubliny a chimérické čtení.
- Fáze 2: úprava k-bimeru (dvojice k-merů). Přesné vzdálenosti mezi k-mery v genomu (hrany v montážním grafu) se odhadují.
- Fáze 3: konstrukce párového montážního grafu.
- Fáze 4: kontig konstrukce. SPAdes výstupy contigů a umožňuje mapovat čtení zpět na jejich pozice v grafu sestavy po zjednodušení grafu (zpětné sledování).
Podrobnosti o sestavení SPAdes
SPAdes byl navržen tak, aby překonal problémy spojené se sestavením dat z jedné buňky takto:[2]
1. Nerovnoměrné pokrytí.SPAdes využívá vícestranný de Bruijnův graf, který umožňuje použití různých hodnot k. Bylo navrženo použít menší hodnoty k v oblastech s nízkým pokrytím, aby se minimalizovala fragmentace, a větší hodnoty k v oblastech s vysokým pokrytím, aby se snížilo opakované sbalení (fáze 1 výše).
2. Variabilní velikosti vložky pro čtení na spárovaném konci. SPAdes využívá základní koncept spárovaných de Bruijnových grafů. Spárovaný de Bruijn však funguje dobře na čtení spárovaných konců s pevnou velikostí vložky. Proto SPAdes odhaduje „vzdálenosti“ namísto použití „velikosti vložky“. Vzdálenost (d) čtení se spárovaným koncem je definována jako pro délku čtení L, d = velikost vložky - L. Použitím přístupu k-bimer úpravy jsou vzdálenosti přesně odhadnuty. K-bimer skládající se z k-merů „α“ a „β“ spolu s odhadovanou vzdáleností mezi nimi v genomu (α | β, d). Tento přístup rozděluje párovaná čtení na dvojice k-merů, které jsou transformovány tak, aby definovaly dvojice hran (biedges) v de Bruijnových grafech. Tyto sady biedges se podílejí na odhadu vzdáleností mezi cestami hran mezi k-mers α a β. Shlukováním je optimální odhad vzdálenosti zvolen z každého klastru (fáze 2 výše). Pro konstrukci spárovaného de Bruijnova grafu se v SPAdes (fáze 3) používají obdélníkové grafy. Přístup k obdélníkovým grafům byl poprvé představen v roce 2012[15] konstruovat spárované de Bruijnovy grafy s pochybnými vzdálenostmi.
3. Boule, tipy a chiméry. K výčnělkům a tipům dochází kvůli chybám ve středu a na konci čtení. Chimérické spojení spojuje dva nesouvisející podřetězce genomu. SPAdes je identifikuje na základě topologie grafů, délky a pokrytí v nich nerozvětvených cest. SPAdes udržuje datovou strukturu, aby bylo možné zpětně sledovat všechny opravy nebo odebrání.
SPAdes upravuje dříve použitý přístup k odstranění boulí[16] a iterativní de Bruijnův grafický přístup od Peng et al (2010)[17] a vytváří nový přístup zvaný „bulge corremoval“, který znamená korekci a odstranění boule. Algoritmus bulge corremoval lze shrnout takto: jednoduchá boule je tvořena dvěma malými a podobnými cestami (P a Q) spojujícími stejnou náboje. Pokud P je cesta bez větvení (h-cesta), pak SPAdes mapuje každou hranu v P na projekci hrany v Q a odstraní P z grafu, v důsledku čehož se zvyšuje pokrytí Q. Na rozdíl od jiných assemblerů, které používají odstraněním vypouklé boule s pevným pokrytím, SPAdes krok za krokem odstraní nebo promítne dráhy h s nízkým pokrytím. Toho je dosaženo využitím postupně se zvyšujících mezních hodnot a iterací všemi dráhami h ve vzestupném pořadí pokrytí (pro odstranění boule a chimérické odstranění) nebo délky (pro odstranění špičky). Kromě toho, aby bylo zaručeno, že žádné nové zdroje / dřezy jsou zavedeny do grafu, SPAdes odstraní h-cestu (při odstraňování chimérické h-cesty) nebo projekty (v boulovém odstranění) pouze v případě, že její počáteční a koncový vrchol mají alespoň dvě odchozí a příchozí hrany. To pomáhá odstranit h-cesty s nízkým pokrytím vyskytující se z chyb sekvencování a chimérických čtení, ale ne z opakování.
SPAdes potrubí a výkon
SPAdes se skládá z následujících nástrojů:[1]
- Přečtěte si nástroj pro opravu chyb, BayesHammer (pro data Illumina) a IonHammer (pro data IonTorrent) .[14] V tradiční korekci chyb jsou vzácné k-mery považovány za chyby. To nelze u SCS použít z důvodu nejednotného pokrytí. Proto BayesHammer využívá pravděpodobnostní subklastrování, které zkoumá více centrálních nukleotidů, které budou lépe pokryty než ostatní podobné k-mery.[14] Tvrdilo se, že pro Escherichia coli (E-coli) Jednobuněčná datová sada, BayesHammer běží přibližně za 75 minut, zabere až 10 Gb RAM k provedení opravy chyb čtení a vyžaduje 10 GB dalšího místa na disku pro dočasné soubory.
- Iterativní assembler genomu s krátkým čtením, SPAdes. U stejné sady dat tento krok trvá ~ 75 minut. Provedení 1. fáze trvá ~ 40% tohoto času (viz SPAdes montážní přístup výše) při použití tří iterací (k = 22, 34 a 56) a ~ 45%, 14% a 1% pro dokončení fází 2, 3 a 4. Také to vyžaduje až 5 Gb RAM k provedení montáže a potřebuje 8 GB dalšího místa na disku.
- Korektor nesouladu (který používá BWA nářadí). Tento modul vyžaduje pro dočasné soubory nejdelší dobu (~ 120 minut) a největší další místo na disku (~ 21 Gb). Dokončení neshody sestavené sestavy vyžaduje až 9 Gb RAM E-coli soubor údajů o jedné buňce.
- Modul pro sestavování vysoce polymorfních diploidních genomů, dipSPAdes. dipSPAdes konstruuje delší kontigy využíváním výhod divergence mezi haplomy v repetitivních oblastech genomu. Poté produkuje konstrukci konsensuálních kontigů a provádí sestavení haplotypu.
Porovnávání assemblerů
Nedávná studie[18] porovnal několik genomových asemblerů na jedné buňce E-coli Vzorky. Tito montéři jsou EULER-SR,[11] Samet,[9] SOAPdenovo,[19] Velvet-SC, EULER + Velvet-SC (E + V-SC),[16] IDBA-UD[20] a SPAdes. Bylo prokázáno, že IDBA-UD a SPAdes fungovaly nejlépe.[18] SPAdes měl největší NG50 (99 913, statistika NG50 je stejná jako N50 kromě toho, že je použita velikost genomu místo velikosti sestavy).[21] Navíc pomocí E-coli referenční genom,[22] SPAdes shromáždil nejvyšší procento genomu (97%) a nejvyšší počet úplných genů (4 071 ze 4 324).[18] Výkony montérů byly následující:[18]
- Počet kontigů:
IDBA-UD SPAdes > IDBA-UD >>> E + V-SC> EULER-SR> Velvet> Velvet-SC> SOAPdenovo IDBA-UD> SPAdes >> EULER-SR> Velvet = E + V-SC> Velvet-SC> SOAPdenovo SPAdes > IDBA-UD> E + V-SC> Velvet-SC> EULER-SR> SOAPdenovo> Velvet E + V-SC = Velvet = Velvet-SC Viz také
Reference