Složitost jazykové sekvence - Linguistic sequence complexity

Složitost jazykové sekvence (LC) je měřítkem „bohatosti slovní zásoby“ genetického textu v jazyce genové sekvence.[1]Když nukleotid sekvence je psána jako text pomocí čtyřpísmenné abecedy, opakovatelnost textu, tj. opakování jeho N gramů (slova), lze vypočítat a slouží jako měřítko složitosti sekvence. Tedy složitější a Sekvence DNA, tím bohatší je oligonukleotid slovní zásoba, zatímco opakující se sekvence mají relativně nižší složitost. Následná práce vylepšila původní algoritmus popsaný v Trifonov (1990),[1] beze změny podstaty přístupu jazykové složitosti.[2][3][4]

Význam LC lze lépe pochopit tím, že se prezentace sekvence bude považovat za a strom všech subsekvencí dané sekvence. Nejsložitější sekvence mají maximálně vyvážené stromy, zatímco míra nerovnováhy nebo asymetrie stromů slouží jako míra složitosti. Počet uzlů na úrovni stromu i se rovná skutečné velikosti slovníku s délkou i v dané sekvenci; počet uzlů v nejvyváženějším stromu, který odpovídá nejsložitější posloupnosti délky N, na úrovni stromu i je buď 4i nebo N-i + 1, podle toho, co je menší. Složitost (C) fragmentu sekvence (s délkou RW) lze přímo vypočítat jako součin míry využití slovníku (Ui):[2]

     

Použití slovní zásoby pro oligomery dané velikosti i lze definovat jako poměr skutečné velikosti slovníku dané sekvence k maximální možné velikosti slovníku pro sekvenci této délky. Například U2 pro sekvenci ACGGGAAGCTGATTCCA = 14/16, protože obsahuje 14 ze 16 možných různých dinukleotidů; U3 pro stejnou sekvenci = 15/15 a U4= 14/14. Pro sekvenci ACACACACACACACACA, U1= 1/2; U2= 2/16 = 0,125, protože má jednoduchou slovní zásobu pouze dvou dinukleotidů; U3 pro tuto sekvenci = 2/15. k-n-tice s k od dvou do W, zatímco W závisí na RW. Pro hodnoty RW menší než 18 se W rovná 3; pro RW menší než 67 se W rovná 4; pro RW <260, W = 5; pro RW <1029, W = 6 atd. Hodnota C poskytuje měřítko složitosti sekvence v rozsahu 0 [2]Tento vzorec se liší od původní míry LC[1] ve dvou ohledech: způsobem použití slovní zásoby Ui se počítá, a protože i není v rozmezí 2 až N-1, ale pouze do W. Toto omezení rozsahu Ui činí algoritmus podstatně efektivnějším bez ztráty energie.[2]v [5] byla použita jiná upravená verze, kde jazyková složitost (LC) je definována jako poměr počtu podřetězců jakékoli délky přítomných v řetězci k maximálnímu možnému počtu podřetězců. Podle jednoduchého vzorce lze vypočítat maximální slovní zásobu nad velikostí slov 1 až m.[5]Tento výpočet složitosti sekvenční analýzy lze použít k hledání konzervovaných oblastí mezi porovnávanými sekvencemi pro detekci oblastí s nízkou složitostí, včetně jednoduchých opakování sekvencí, nedokonalých Přímo nebo obrácené opakování, polypurin a polypyrimidin trojřetězcové struktury DNA a čtyřvláknové struktury (např G-kvadruplexy ).[6]

Reference

  1. ^ A b C Edward N. Trifonov (1990). "Dává smysl lidskému genomu". Struktura a metody, sv. 1. Iniciativa lidského genomu a rekombinace DNA; Sborník ze šesté konverzace v oboru Biomolekulární stereodynamika. Albany, New York: Adenine Press. str. 69–77.
  2. ^ A b C d Gabrielian, A. (1999). "Složitost sekvence a zakřivení DNA". Počítače a chemie. 23 (3–4): 263–274. doi:10.1016 / S0097-8485 (99) 00007-8. PMID  10404619.
  3. ^ Orlov, Y. L .; Potapov, V. N. (2004). „Složitost: internetový zdroj pro analýzu složitosti sekvence DNA“. Výzkum nukleových kyselin. 32 (Problém s webovým serverem): W628 – W633. doi:10.1093 / nar / gkh466. PMC  441604. PMID  15215465.
  4. ^ Janson, S .; Lonardi, S .; Szpankowski, W. (2004). "Průměrná složitost sekvence". Teoretická informatika. 326 (1–3): 213–227. doi:10.1016 / j.tcs.2004.06.023.
  5. ^ A b Troyanskaya, O. G .; Arbell, O .; Koren, Y .; Landau, G. M .; Bolshoy, A. (2002). „Profily složitosti sekvence prokaryotických genomových sekvencí: rychlý algoritmus pro výpočet jazykové složitosti“. Bioinformatika. 18 (5): 679–88. doi:10.1093 / bioinformatika / 18.5.679. PMID  12050064.
  6. ^ Kalendar, R .; Lee, D .; Schulman, A. H. (2011). "Webové nástroje Java pro PCR, in silico PCR a sestavení a analýzu oligonukleotidů". Genomika. 98 (2): 137–144. doi:10.1016 / j.ygeno.2011.04.009. PMID  21569836.