Složitost jazykové sekvence - Linguistic sequence complexity
Složitost jazykové sekvence (LC) je měřítkem „bohatosti slovní zásoby“ genetického textu v jazyce genové sekvence.[1]Když nukleotid sekvence je psána jako text pomocí čtyřpísmenné abecedy, opakovatelnost textu, tj. opakování jeho N gramů (slova), lze vypočítat a slouží jako měřítko složitosti sekvence. Tedy složitější a Sekvence DNA, tím bohatší je oligonukleotid slovní zásoba, zatímco opakující se sekvence mají relativně nižší složitost. Následná práce vylepšila původní algoritmus popsaný v Trifonov (1990),[1] beze změny podstaty přístupu jazykové složitosti.[2][3][4]
Význam LC lze lépe pochopit tím, že se prezentace sekvence bude považovat za a strom všech subsekvencí dané sekvence. Nejsložitější sekvence mají maximálně vyvážené stromy, zatímco míra nerovnováhy nebo asymetrie stromů slouží jako míra složitosti. Počet uzlů na úrovni stromu i se rovná skutečné velikosti slovníku s délkou i v dané sekvenci; počet uzlů v nejvyváženějším stromu, který odpovídá nejsložitější posloupnosti délky N, na úrovni stromu i je buď 4i nebo N-i + 1, podle toho, co je menší. Složitost (C) fragmentu sekvence (s délkou RW) lze přímo vypočítat jako součin míry využití slovníku (Ui):[2]
Použití slovní zásoby pro oligomery dané velikosti i lze definovat jako poměr skutečné velikosti slovníku dané sekvence k maximální možné velikosti slovníku pro sekvenci této délky. Například U2 pro sekvenci ACGGGAAGCTGATTCCA = 14/16, protože obsahuje 14 ze 16 možných různých dinukleotidů; U3 pro stejnou sekvenci = 15/15 a U4= 14/14. Pro sekvenci ACACACACACACACACA, U1= 1/2; U2= 2/16 = 0,125, protože má jednoduchou slovní zásobu pouze dvou dinukleotidů; U3 pro tuto sekvenci = 2/15. k-n-tice s k od dvou do W, zatímco W závisí na RW. Pro hodnoty RW menší než 18 se W rovná 3; pro RW menší než 67 se W rovná 4; pro RW <260, W = 5; pro RW <1029, W = 6 atd. Hodnota C poskytuje měřítko složitosti sekvence v rozsahu 0
Reference
- ^ A b C Edward N. Trifonov (1990). "Dává smysl lidskému genomu". Struktura a metody, sv. 1. Iniciativa lidského genomu a rekombinace DNA; Sborník ze šesté konverzace v oboru Biomolekulární stereodynamika. Albany, New York: Adenine Press. str. 69–77.
- ^ A b C d Gabrielian, A. (1999). "Složitost sekvence a zakřivení DNA". Počítače a chemie. 23 (3–4): 263–274. doi:10.1016 / S0097-8485 (99) 00007-8. PMID 10404619.
- ^ Orlov, Y. L .; Potapov, V. N. (2004). „Složitost: internetový zdroj pro analýzu složitosti sekvence DNA“. Výzkum nukleových kyselin. 32 (Problém s webovým serverem): W628 – W633. doi:10.1093 / nar / gkh466. PMC 441604. PMID 15215465.
- ^ Janson, S .; Lonardi, S .; Szpankowski, W. (2004). "Průměrná složitost sekvence". Teoretická informatika. 326 (1–3): 213–227. doi:10.1016 / j.tcs.2004.06.023.
- ^ A b Troyanskaya, O. G .; Arbell, O .; Koren, Y .; Landau, G. M .; Bolshoy, A. (2002). „Profily složitosti sekvence prokaryotických genomových sekvencí: rychlý algoritmus pro výpočet jazykové složitosti“. Bioinformatika. 18 (5): 679–88. doi:10.1093 / bioinformatika / 18.5.679. PMID 12050064.
- ^ Kalendar, R .; Lee, D .; Schulman, A. H. (2011). "Webové nástroje Java pro PCR, in silico PCR a sestavení a analýzu oligonukleotidů". Genomika. 98 (2): 137–144. doi:10.1016 / j.ygeno.2011.04.009. PMID 21569836.