N50, L50 a související statistiky - N50, L50, and related statistics
Tento článek obsahuje seznam obecných Reference, ale zůstává z velké části neověřený, protože postrádá dostatečné odpovídající vložené citace.Listopad 2015) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
v výpočetní biologie, N50 a L50 jsou statistiky souboru kontig nebo lešení délky. The N50 je podobný a znamenat nebo medián délek, ale větší váha je dána delším kontigům. Používá se široce v shromáždění genomu, zejména s ohledem na délky kontig v sestavě tahu. Existují také související U50, UL50, UG50, UG50%, N90, NG50, a D50 statistika.
Abychom mohli lépe posoudit výstup sestavení pro virové a mikrobiální datové sady, zavolala nová metrika U50 by měly být použity. The U50 identifikuje jedinečné kontigy specifické pro daný cíl pomocí referenčního genomu jako výchozího stavu s cílem obejít některá omezení, která jsou vlastní N50 metrický. Využití U50 metrika umožňuje přesnější měření výkonu sestavy analyzováním pouze jedinečných nepřekrývajících se kontig. Většina virových a mikrobiálních sekvencí má vysoký hluk pozadí (tj. Hostitel a jiné necílové objekty), což přispívá k tomu, že jsou zkreslené, zkreslené N50 hodnota - to je opraveno U50.[1]
Definice
N50
Statistika N50 definuje kvalitu montáže z hlediska souvislost. Vzhledem k řadě kontigů N50 je definována jako délka sekvence nejkratší kontig na 50% celkové délky genomu. Lze jej považovat za bod poloviny hmotnosti distribuce; počet základny ze všech kontigů delší než N50 bude blízký počtu základen ze všech kontigů kratších než N50. Zvažte například 9 kontig s délkami 2,3,4,5,6,7,8,9 a 10; jejich součet je 54, polovina součtu je 27 a velikost genomu je také 54. 50% této sestavy by bylo 10 + 9 + 8 = 27 (polovina délky sekvence). N50 = 8, což je velikost kontig, která spolu s většími kontigy obsahuje polovinu sekvence konkrétního genomu. Poznámka: Při porovnávání hodnot N50 z různých sestav musí mít velikosti sestav stejnou velikost, aby měla N50 smysl.
N50 lze popsat jako váženou střední statistiku, takže 50% celé sestavy je obsaženo v kontigech nebo lešeních, která jsou stejná nebo větší než tato hodnota.
L50
Vzhledem k souboru kontigů, z nichž každý má svou vlastní délku, L50 počet je definován jako nejmenší počet kontigů, jejichž součet délky tvoří polovinu velikosti genomu. Z výše uvedeného příkladu L50 = 3.
N90
The Statistika N90 je menší nebo rovno N50 statistický; je to délka, pro kterou kolekce všech kontigů této délky nebo déle obsahuje alespoň 90% součtu délek všech kontig.
NG50
Všimněte si, že N50 se počítá spíše v kontextu velikosti sestavy než velikosti genomu. Srovnání hodnot N50 odvozených ze sestav výrazně odlišných délek proto obvykle není informativní, i když pro stejný genom. Za tímto účelem autoři Assemblathon soutěž přišla s novým opatřením s názvem NG50. The Statistika NG50 je stejné jako N50 kromě toho, že je to 50% známé nebo odhadované velikosti genomu, které musí mít délku NG50 nebo delší. To umožňuje smysluplné srovnání mezi různými sestavami. V typickém případě, že velikost sestavy není větší než velikost genomu, nebude statistika NG50 větší než statistika N50.
D50
The Statistika D50 (také nazývané Test D50) je podobný N50 statistika v definici, ačkoli se obecně nepoužívá k popisu genomových sestav. The D50 statistika je nejnižší hodnota d pro které je součet délek největší d délky je alespoň 50% součtu všech délek.[2]
U50
U50 je délka nejmenšího kontigu tak, že 50% součtu všech jedinečných, specificky zaměřených kontig je obsaženo v kontigech velikosti U50 nebo větší.[1]
UL50
UL50 je počet kontigů, jejichž součet délky produkuje U50.
UG50
UG50 je délka nejmenší kontigy tak, že 50% referenčního genomu je obsaženo v jedinečných, cílově specifických kontigách velikosti UG50 nebo větší.
UG50%
UG50% je odhadovaná procentní délka pokrytí UG50 v přímém vztahu k délce referenčního genomu. Výpočet je (100 × (UG50 / délka referenčního genomu) UG50%, jako metriku založenou na procentech, lze použít k porovnání výsledků sestavení z různých vzorků nebo studií.
Příklady
Zvažte dvě fiktivní, velmi zjednodušené genomové sestavy, A a B, které jsou odvozeny ze dvou různých druhů. Sestava A obsahuje šest kontigů o délkách 80kbp, 70 kbp, 50 kbp, 40 kbp, 30 kbp a 20 kbp. Součet velikosti sestavy A je 290 kbp, délka N50 kontig je 70 kbp, protože 80 + 70 je větší než 50% 290, a počet L50 kontig je 2 kontig. Délky kontigů sestavy B jsou stejné jako délky sestavy A s výjimkou přítomnosti dvou dalších kontigů s délkami 10 kbp a 5 kbp. Velikost sestavy B je 305 kbp, délka N50 kontig klesá na 50 kbp, protože 80 + 70 + 50 je větší než 50% z 305 a počet L50 kontig je 3 kontigy. Tento příklad ukazuje, že lze někdy zvětšit délku N50 jednoduše odstraněním nejkratších kontig nebo lešení ze sestavy.
Pokud je odhadovaná nebo známá velikost genomu od fiktivního druhu A 500 kbp, pak NG50 délka kontig je 30 kbp, protože 80 + 70 + 50 + 40 + 30 je větší než 50% z 500. Naproti tomu, pokud je odhadovaná nebo známá velikost genomu z druhu B 350 kbp, pak má kontigovou délku NG50 50 kbp, protože 80 + 70 + 50 je větší než 50% z 350.
Alternativní výpočet
N50 lze najít matematicky pro seznam L kladných celých čísel takto:
- Vytvořte další seznam L ' , který je totožný s L, kromě toho, že každý prvek n v L byl nahrazen n jeho kopie.
- Medián hodnoty L ' je N50 z L. (Těch 10% kvantil z L ' je N90 statistický.)
Například: Pokud L = (2, 2, 2, 3, 3, 4, 8, 8), poté L ' skládá se ze šesti 2, šesti 3, čtyř 4 a šestnácti 8. To znamená, L ' má dvakrát tolik 2s jako L; má třikrát tolik 3 s L; má čtyřikrát tolik 4s; atd. Medián sady 32 prvků L ' je průměr 16. nejmenšího prvku, 4. a 17. nejmenšího prvku, 8, takže N50 je 6. Vidíme, že součet všech hodnot v seznamu L které jsou menší nebo rovny N50 ze 6 je 16 = 2 + 2 + 2 + 3 + 3 + 4 a součet všech hodnot v seznamu L které jsou větší nebo rovno 6, je také 16 = 8 + 8. Pro srovnání s N50 ze 6, všimněte si, že průměr ze seznamu L je 4, zatímco medián je 3. Abychom rekapitulovali vizuálnějším způsobem, máme:
Hodnoty seznamu L = (2, 2, 2, 3, 3, 4, 8, 8)
Hodnoty nového seznamu L ' = (2 2 2 2 2 2 3 3 3 3 3 3 4 4 4 4 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8)
Řady L ' hodnoty = 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
Reference
- ^ A b Castro, Christina J .; Ng, Terry Fei Fan (listopad 2017). „U50: Nová metrika pro měření výstupu sestavy na základě nepřekrývajících se cílových specifických kontigů“. Journal of Computational Biology. 24 (11): 1071–1080. doi:10.1089 / cmb.2017.0013. PMC 5783553. PMID 28418726.
- ^ Han, J .; Sanders, C. M .; Wang, C .; Yang, Q .; Wimbish, J .; Boone, B. E .; Thomas, S. J .; Levy, S.E. (25. září 2012). Měření diverzity repertoáru T buněk v periferní krvi pomocí nové multiplexní PCR a vysoce výkonných sekvenčních metod. MipTec. Basilej Švýcarsko. Archivovány od originál dne 5. října 2015. Citováno 5. října 2015.
- Arachne wiki na Široký institut
- Miller, JR; Koren, S; Sutton, G (2010). "Algoritmy sestavení pro data sekvenování nové generace". Genomika. 95 (6): 315–327. doi:10.1016 / j.ygeno.2010.03.001. PMC 2874646. PMID 20211242.
- Earl, D; Bradnam, K; St. John, J; Miláčku, A; Lin, D; Fass, J; Yu, HOK; Buffalo, V; Zerbino, DR; Diekhans, M; Nguyen, N; Ariyaratne, PN; Sung, WK; Ning, Z; Haimel, M; Simpson, JT; Fonseca, NA; Birol, I; Docking, TR; Ho, IY; Rokhsar, DS; Chikhi, R; Lavenier, D; Chapuis, G; Naquin, D; Maillet, N; Schatz, MC; Kelley, DR; Phillippy, AM; Koren, S (2011). „Assemblathon 1: Konkurenceschopné hodnocení metod sestavování krátkého čtení de novo“. Výzkum genomu. 21 (12): 2224–2241. doi:10,1101 / gr.126599.111. PMC 3227110. PMID 21926179.
- Blogový příspěvek L50-vs-N50 (07-Oct-2015)