ProbCons - ProbCons
ProbCons je open source pravděpodobnostní vícenásobné zarovnání založené na konzistenci aminokyselina sekvence. Je to jeden z nejúčinnějších proteinů vícenásobné zarovnání sekvence programy, protože opakovaně prokázal statisticky významnou výhodu v přesnosti oproti podobným nástrojům, včetně Clustal a MAFFT.[1][2]
Algoritmus
Následující text popisuje základní osnovu algoritmu ProbCons.[3]
Krok 1: Spolehlivost zarovnávací hrany
Pro každou dvojici sekvencí spočítejte pravděpodobnost, že písmena a jsou spárovány zarovnání, které je generováno modelem.
(Kde se rovná 1, pokud a jsou v zarovnání a jinak 0).
Krok 2: Maximální očekávaná přesnost
Přesnost zarovnání s ohledem na jiné vyrovnání je definován jako počet běžných zarovnaných párů děleno délkou kratší sekvence.
Vypočítejte očekávanou přesnost každé sekvence:
Tím se získá zarovnání s maximální očekávanou přesností (MEA):
Krok 3: Pravděpodobnostní transformace konzistence
Všechny páry sekvencí x, y ze sady všech sekvencí jsou nyní přehodnoceny pomocí všech přechodných sekvencí z:
Tento krok lze iterovat.
Krok 4: Výpočet vodicího stromu
Vytvořte strom průvodce hierarchickým seskupováním pomocí skóre MEA jako skóre podobnosti sekvence. Klastrová podobnost je definována pomocí váženého průměru přes podobnost párové sekvence.
Krok 5: Vypočítejte MSA
Nakonec vypočítejte MSA pomocí progresivního zarovnání nebo iteračního zarovnání.
Viz také
Reference
- ^ Do CB, Mahabhashyam MS, Brudno M, Batzoglou S (2005). „PROBCONS: Pravděpodobnostní konzistence založené na vícenásobném sekvenčním zarovnání“. Výzkum genomu. 15 (2): 330–340. doi:10,1101 / gr. 2821705. PMC 546535. PMID 15687296.
- ^ Roshan, Usman (01.01.2014). Msgstr "Vícenásobné seřazení sekvencí pomocí Probcons a Probalign". V Russell, David J (ed.). Více metod zarovnání sekvence. Metody v molekulární biologii. 1079. Humana Press. str. 147 鈥 . doi:10.1007/978-1-62703-646-7_9. ISBN 9781627036450. PMID 24170400.
- ^ Přednáška „Bioinformatika II“ na univerzitě ve Freiburgu