Integrativní bioinformatika - Integrative bioinformatics
Integrativní bioinformatika je disciplína bioinformatika která se zaměřuje na problémy integrace dat pro humanitní vědy.
Se vzestupem vysoká propustnost (HTP) technologie v přírodních vědách, zejména v Evropě molekulární biologie, částka shromážděná data rostl exponenciálním způsobem. Kromě toho jsou data rozptýlena v celé řadě veřejných i soukromých údajů úložiště, a jsou uloženy pomocí velkého počtu různých formáty. Tato situace velmi ztěžuje vyhledávání těchto dat a provádění analýz nezbytných pro extrakci nových poznatků z úplné sady dostupných dat. Integrativní bioinformatika se pokouší tento problém vyřešit poskytnutím jednotného přístupu k datům vědy o živé přírodě.
Přístupy
Sémantické webové přístupy
V Sémantický web přístup, údaje z více webových stránek nebo databází jsou prohledávány pomocí metadata. Metadata jsou strojově čitelné kód, který definuje obsah stránky pro program, takže srovnání dat a hledaných výrazů je přesnější. To slouží ke snížení počtu výsledků, které jsou irelevantní nebo neužitečné. Některá metadata existují jako volané definice ontologie, které mohou označit uživatelé nebo programy; slouží k usnadnění vyhledávání pomocí klíčových výrazů nebo frází k vyhledání a vrácení dat.[1] Mezi výhody tohoto přístupu patří obecná zvýšená kvalita dat vrácených ve vyhledávání a se správným značkováním, hledání ontologií, které nemusí výslovně uvádět hledaný výraz, ale jsou stále relevantní. Jednou z nevýhod tohoto přístupu je, že výsledky, které se vracejí, přicházejí ve formátu databáze jejich původu, a proto může být obtížné přímé srovnání. Dalším problémem je, že výrazy používané při označování a vyhledávání mohou být někdy nejednoznačné a mohou způsobit zmatek mezi výsledky.[2] Sémantický webový přístup je navíc stále považován za rozvíjející se technologii a v současné době se v širokém měřítku nepoužívá.[3]
Jednou ze současných aplikací ontologického vyhledávání v biomedicínských vědách je GoPubMed, který prohledává PubMed databáze vědecké literatury.[1] Další využití ontologií je v databázích jako např SwissProt, Ensembl a TrEMBL, kteří používají tuto technologii k prohledávání skladů dat souvisejících s lidským proteomem pro tagy související s hledaným výrazem.[4]
Některé z výzkumů v této oblasti se zaměřily na vytváření nových a specifických ontologií.[5] Jiní vědci pracovali na ověřování výsledků existujících ontologií.[2] Ve specifickém příkladu je cílem Verschelde a kol. byla integrace několika různých ontologických knihoven do větší, která obsahovala více definic různých subspecialit (lékařských, molekulárně biologických atd.) a dokázala rozlišovat mezi nejednoznačnými značkami; výsledkem byl efekt podobný datovému skladu se snadným přístupem k více databázím pomocí ontologií.[4] V samostatném projektu Bertens a kol. zkonstruoval mřížkovou práci tří ontologií (pro anatomii a vývoj modelových organismů) na nové rámcové ontologii generických orgánů. Například výsledky hledání „srdce“ v této ontologii by vrátily plány srdce pro každý z druhů obratlovců, jejichž ontologie byly zahrnuty. Stanoveným cílem projektu je usnadnění komparativních a evolučních studií.[6]
Přístupy ke skladování dat
V skladování dat strategie jsou data z různých zdrojů extrahována a integrována do jedné databáze. Například různé 'omics' datové sady mohou být integrovány, aby poskytovaly biologický pohled do biologických systémů. Mezi příklady patří data z genomiky, transkriptomiky, proteomiky, interaktomiky, metabolomiky. V ideálním případě se změny v těchto zdrojích pravidelně synchronizují s integrovanou databází. Data se uživatelům zobrazují v běžném formátu. Mnoho programů zaměřených na pomoc při vytváření takových skladů je navrženo tak, aby byly extrémně univerzální, aby umožňovaly jejich implementaci do různých výzkumných projektů.[7] Jednou z výhod tohoto přístupu je, že data jsou k dispozici pro analýzu na jednom místě pomocí jednotného schématu. Některé nevýhody spočívají v tom, že datové soubory jsou často obrovské a je obtížné je udržovat aktuální. Dalším problémem této metody je, že je nákladné sestavit takový sklad.[8]
Standardizované formáty pro různé typy dat (např. Údaje o bílkovinách) se nyní objevují kvůli vlivu skupin, jako je Iniciativa pro standardy proteomiky (PSI). Některé projekty datových skladů dokonce vyžadují zadání dat v jednom z těchto nových formátů.[9]
Další přístupy
Dolování dat používá statistické metody k hledání vzorů ve stávajících datech. Tato metoda obecně vrací mnoho vzorů, z nichž některé jsou falešné a některé významné, ale všechny vzory, které program najde, je nutné vyhodnotit jednotlivě. V současné době je nějaký výzkum zaměřen na začlenění stávajících technik dolování dat s novými metodami analýzy vzorů, které snižují potřebu trávit čas procházením každého vzoru nalezeného v počátečním programu, ale místo toho vrací několik výsledků s vysokou pravděpodobností relevance.[10] Jednou z nevýhod tohoto přístupu je, že neintegruje více databází, což znamená, že srovnání mezi databázemi nejsou možná. Hlavní výhodou tohoto přístupu je, že umožňuje generování nových hypotéz k testování.
Viz také
- Biologická databáze
- Vizualizace biologických dat
- InterMine - open-source systém biologických datových skladů
Reference
- ^ A b Doms, A .; Schroeder, M. (2005). „GoPubMed: Exploring PubMed with the Gene Ontology“ (PDF). Výzkum nukleových kyselin. 33 (Problém s webovým serverem): W783–6. doi:10.1093 / nar / gki470. PMC 1160231. PMID 15980585. Citováno 28. září 2012.
- ^ A b Van Ophuizen, E.A.A. & Leunissen, J.A.M. (2010). „Hodnocení výkonu tří sémantických zdrojů znalostí v komparativní anatomii.“ Journal of Integrative Bioinformatics. Vyvolány 28 October 2012.
- ^ Ruttenberg a kol. (2007). „Pokrok v translačním výzkumu pomocí sémantického webu.“ BMC bioinformatika. Vyvolány 28 September 2012
- ^ A b Verschelde a kol. (2007). „Integrace databáze podporovaná ontologií na podporu Zpracování přirozeného jazyka and Biomedical Data-mining. “Journal of Integrative Bioinformatics. Citováno 28. října 2012.
- ^ Castillo a kol. (2012). „Konstrukce sítí transkriptomů kávy na základě sémantiky anotací genů.“ Journal of Integrative Bioinformatics. Vyvolány 29 October 2012.
- ^ Bertens a kol. (2011). „Generický orgánový ontologický systém aplikovaný na anatomii, vývoj a fyziologii srdce obratlovců.“ Journal of Integrative Bioinformatics. Vyvolány 30 October 2012.
- ^ Shah a kol. (2005). „Atlas - datový sklad pro integrativní bioinformatiku.“ BMC bioinformatika. Vyvolány 30 September 2012.
- ^ Kuenne a kol. (2007). „Využití technologie Data Warehouse v bioinformatice plodin.“ Journal of Integrative Bioinformatics. Vyvolány 30 September 2012.
- ^ Thiele a kol. (2010). „Strategie bioinformatiky v biologických vědách: od zpracování dat a skladování dat po extrakci biologických znalostí.“ Journal of Integrative Bioinformatics. Vyvolány 29 October 2012.
- ^ Belmamoune a kol. (2010). „Těžba a analýza časoprostorových vzorců genové exprese v integračním databázovém rámci.“ Journal of Integrative Bioinformatics. Vyvolány 27 October 2012.