Složitost jazykové sekvence - Linguistic sequence complexity

Složitost jazykové sekvence (LC) je měřítkem „bohatosti slovní zásoby“ genetického textu v jazyce genové sekvence.^[1]Když nukleotid sekvence je psána jako text pomocí čtyřpísmenné abecedy, opakovatelnost textu, tj. opakování jeho N gramů (slova), lze vypočítat a slouží jako měřítko složitosti sekvence. Tedy složitější a Sekvence DNA, tím bohatší je oligonukleotid slovní zásoba, zatímco opakující se sekvence mají relativně nižší složitost. Následná práce vylepšila původní algoritmus popsaný v Trifonov (1990),^[1] beze změny podstaty přístupu jazykové složitosti.^[2]^[3]^[4]

Význam LC lze lépe pochopit tím, že se prezentace sekvence bude považovat za a strom všech subsekvencí dané sekvence. Nejsložitější sekvence mají maximálně vyvážené stromy, zatímco míra nerovnováhy nebo asymetrie stromů slouží jako míra složitosti. Počet uzlů na úrovni stromu $i$ se rovná skutečné velikosti slovníku s délkou $i$ v dané sekvenci; počet uzlů v nejvyváženějším stromu, který odpovídá nejsložitější posloupnosti délky N, na úrovni stromu $i$ je buď 4ⁱ nebo N-i + 1, podle toho, co je menší. Složitost ( $C$ ) fragmentu sekvence (s délkou RW) lze přímo vypočítat jako součin míry využití slovníku (U_i):^[2]

${ displaystyle C = U_ {1} U_ {2} ... U_ {i} .... U_ {w}}$

Použití slovní zásoby pro oligomery dané velikosti $i$ lze definovat jako poměr skutečné velikosti slovníku dané sekvence k maximální možné velikosti slovníku pro sekvenci této délky. Například U₂ pro sekvenci ACGGGAAGCTGATTCCA = 14/16, protože obsahuje 14 ze 16 možných různých dinukleotidů; U₃ pro stejnou sekvenci = 15/15 a U₄= 14/14. Pro sekvenci ACACACACACACACACA, U₁= 1/2; U₂= 2/16 = 0,125, protože má jednoduchou slovní zásobu pouze dvou dinukleotidů; U₃ pro tuto sekvenci = 2/15. k-n-tice s k od dvou do W, zatímco W závisí na RW. Pro hodnoty RW menší než 18 se W rovná 3; pro RW menší než 67 se W rovná 4; pro RW <260, W = 5; pro RW <1029, W = 6 atd. Hodnota $C$ poskytuje měřítko složitosti sekvence v rozsahu 0 [2]Tento vzorec se liší od původní míry LC^[1] ve dvou ohledech: způsobem použití slovní zásoby U_i se počítá, a protože $i$ není v rozmezí 2 až N-1, ale pouze do W. Toto omezení rozsahu U_i činí algoritmus podstatně efektivnějším bez ztráty energie.^[2]v ^[5] byla použita jiná upravená verze, kde jazyková složitost (LC) je definována jako poměr počtu podřetězců jakékoli délky přítomných v řetězci k maximálnímu možnému počtu podřetězců. Podle jednoduchého vzorce lze vypočítat maximální slovní zásobu nad velikostí slov 1 až m.^[5]Tento výpočet složitosti sekvenční analýzy lze použít k hledání konzervovaných oblastí mezi porovnávanými sekvencemi pro detekci oblastí s nízkou složitostí, včetně jednoduchých opakování sekvencí, nedokonalých Přímo nebo obrácené opakování, polypurin a polypyrimidin trojřetězcové struktury DNA a čtyřvláknové struktury (např G-kvadruplexy ).^[6]

Reference

^ ^A ^b ^C Edward N. Trifonov (1990). "Dává smysl lidskému genomu". Struktura a metody, sv. 1. Iniciativa lidského genomu a rekombinace DNA; Sborník ze šesté konverzace v oboru Biomolekulární stereodynamika. Albany, New York: Adenine Press. str. 69–77.
^ ^A ^b ^C ^d Gabrielian, A. (1999). "Složitost sekvence a zakřivení DNA". Počítače a chemie. 23 (3–4): 263–274. doi:10.1016 / S0097-8485 (99) 00007-8. PMID 10404619.
^ Orlov, Y. L .; Potapov, V. N. (2004). „Složitost: internetový zdroj pro analýzu složitosti sekvence DNA“. Výzkum nukleových kyselin. 32 (Problém s webovým serverem): W628 – W633. doi:10.1093 / nar / gkh466. PMC 441604. PMID 15215465.
^ Janson, S .; Lonardi, S .; Szpankowski, W. (2004). "Průměrná složitost sekvence". Teoretická informatika. 326 (1–3): 213–227. doi:10.1016 / j.tcs.2004.06.023.
^ ^A ^b Troyanskaya, O. G .; Arbell, O .; Koren, Y .; Landau, G. M .; Bolshoy, A. (2002). „Profily složitosti sekvence prokaryotických genomových sekvencí: rychlý algoritmus pro výpočet jazykové složitosti“. Bioinformatika. 18 (5): 679–88. doi:10.1093 / bioinformatika / 18.5.679. PMID 12050064.
^ Kalendar, R .; Lee, D .; Schulman, A. H. (2011). "Webové nástroje Java pro PCR, in silico PCR a sestavení a analýzu oligonukleotidů". Genomika. 98 (2): 137–144. doi:10.1016 / j.ygeno.2011.04.009. PMID 21569836.

[Trifonov1990-1] A ^b ^C Edward N. Trifonov (1990). "Dává smysl lidskému genomu". Struktura a metody, sv. 1. Iniciativa lidského genomu a rekombinace DNA; Sborník ze šesté konverzace v oboru Biomolekulární stereodynamika. Albany, New York: Adenine Press. str. 69–77.

[Gabrielian1999-2] A ^b ^C ^d Gabrielian, A. (1999). "Složitost sekvence a zakřivení DNA". Počítače a chemie. 23 (3–4): 263–274. doi:10.1016 / S0097-8485 (99) 00007-8. PMID 10404619.

[Orlov2004-3] Orlov, Y. L .; Potapov, V. N. (2004). „Složitost: internetový zdroj pro analýzu složitosti sekvence DNA“. Výzkum nukleových kyselin. 32 (Problém s webovým serverem): W628 – W633. doi:10.1093 / nar / gkh466. PMC 441604. PMID 15215465.

[Janson2004-4] Janson, S .; Lonardi, S .; Szpankowski, W. (2004). "Průměrná složitost sekvence". Teoretická informatika. 326 (1–3): 213–227. doi:10.1016 / j.tcs.2004.06.023.

[TAKLB01-5] A ^b Troyanskaya, O. G .; Arbell, O .; Koren, Y .; Landau, G. M .; Bolshoy, A. (2002). „Profily složitosti sekvence prokaryotických genomových sekvencí: rychlý algoritmus pro výpočet jazykové složitosti“. Bioinformatika. 18 (5): 679–88. doi:10.1093 / bioinformatika / 18.5.679. PMID 12050064.

[Kalendar2011-6] Kalendar, R .; Lee, D .; Schulman, A. H. (2011). "Webové nástroje Java pro PCR, in silico PCR a sestavení a analýzu oligonukleotidů". Genomika. 98 (2): 137–144. doi:10.1016 / j.ygeno.2011.04.009. PMID 21569836.

[1]

[2]

[3]

[4]

[5]

[6]