Biostatistika - Biostatistics
Biostatistika jsou vývoj a aplikace statistický metody pro širokou škálu témat v biologie. Zahrnuje návrh biologického experimenty, sběr a analýza dat z těchto experimentů a interpretace výsledků.
Dějiny
Biostatistika a genetika
Biostatistické modelování tvoří důležitou součást mnoha moderních biologických teorií. Genetika studie od svého počátku používaly statistické koncepty k pochopení pozorovaných experimentálních výsledků. Někteří vědci z oblasti genetiky dokonce přispěli statistickým pokrokem k vývoji metod a nástrojů. Gregor Mendel zahájil genetické studie zkoumající genetické segregační vzorce v rodinách hrachu a pomocí statistik vysvětlil shromážděná data. Na počátku 20. století, po znovuobjevení Mendelovy Mendelovy dědické práce, existovaly mezery v porozumění mezi genetikou a evolučním darwinismem. Francis Galton se pokusil rozšířit Mendelovy objevy o lidská data a navrhl jiný model se zlomky dědičnosti pocházející z každého předka, který vytvořil nekonečnou sérii. Nazval to teorií „Zákon dědičnosti předků Jeho myšlenky byly silně nesouhlasí William Bateson, kteří následovali Mendelovy závěry, že genetické dědictví pocházelo výlučně od rodičů, polovina od každého z nich. To vedlo k intenzivní debatě mezi biometriky, kteří podporovali Galtonovy myšlenky, as Walter Weldon, Arthur Dukinfield Darbishire a Karl Pearson a Mendelians, kteří podporovali Batesonovy (a Mendelovy) myšlenky, jako např Charles Davenport a Wilhelm Johannsen. Později biometricians nemohl reprodukovat Galtonovy závěry v různých experimentech a Mendelovy myšlenky převládaly. Ve 30. letech pomohly modely založené na statistických úvahách tyto rozdíly vyřešit a vytvořit neodarwinovskou moderní evoluční syntézu.
Řešení těchto rozdílů také umožnilo definovat koncept populační genetiky a spojilo genetiku a evoluci. Tři přední osobnosti při zřizování populační genetika a tato syntéza se opírala o statistiku a rozvinula její použití v biologii.
- Ronald Fisher vyvinul několik základních statistických metod na podporu své práce studující experimenty s plodinami na Rothamsted Research, včetně jeho knih Statistické metody pro výzkumné pracovníky (1925) konec Genetická teorie přirozeného výběru (1930). Dal mnoho příspěvků do genetiky a statistiky. Některé z nich zahrnují ANOVA, p-hodnota koncepty, Fisherův přesný test a Fisherova rovnice pro populační dynamika. Zasloužil se o větu „Přirozený výběr je mechanismus generování mimořádně vysokého stupně nepravděpodobnosti“.[1]
- Sewall G. Wright rozvinutý F-statistiky a metody jejich výpočtu a definované koeficient inbreedingu.
- J. B. S. Haldane kniha, Příčiny evoluce, obnovil přirozený výběr jako přední mechanismus evoluce tím, že jej vysvětlil z hlediska matematických důsledků Mendelovy genetiky. Také vyvinul teorii prvotní polévka.
Tito a další biostatisté, matematičtí biologové a statisticky naklonění genetici pomohli spojit se evoluční biologie a genetika do konzistentního a soudržného celku, který mohl začít být kvantitativně modelován.
Souběžně s tímto celkovým vývojem byla průkopnická práce společnosti D'Arcy Thompson v O růstu a formě také pomohlo přidat kvantitativní disciplínu k biologickému studiu.
Navzdory zásadnímu významu a časté potřebě statistického uvažování mohla mezi biology přesto existovat tendence nedůvěřovat nebo zastarávat výsledky, které nejsou kvalitativně zdánlivý. Jedna anekdota popisuje Thomas Hunt Morgan zakazující Fridenova kalkulačka z jeho oddělení v Caltech „Říkám:„ Jsem jako člověk, který hledá zlato na břehu řeky Sacramento v roce 1849. S trochou inteligence mohu sáhnout dolů a sebrat velké kusy zlata. A pokud to dokážu „Nenechám žádné lidi v mém oddělení plýtvat omezenými zdroji těžba rýžoviště."[2]
Plánování výzkumu
Jakýkoli výzkum v humanitní vědy navrhuje se odpovědět na otázku a vědecká otázka můžeme mít. K zodpovězení této otázky s vysokou jistotou potřebujeme přesný Výsledek. Správná definice hlavní hypotéza a výzkumný plán sníží chyby při rozhodování o porozumění jevu. Výzkumný plán může zahrnovat výzkumnou otázku, hypotézu, která má být testována, experimentální design, sběr dat metody, analýza dat perspektivy a náklady se vyvinuly. Je nezbytné provést studii založenou na třech základních principech experimentální statistiky: randomizace, replikace a místní ovládání.
Výzkumná otázka
Výzkumná otázka bude definovat cíl studie. Výzkum bude veden touto otázkou, takže musí být stručný, zároveň je zaměřen na zajímavá a nová témata, která mohou zlepšit vědu a znalosti a danou oblast. Definovat způsob, jak se zeptat vědecká otázka, vyčerpávající přehled literatury může být nutné. Výzkum tedy může být užitečný pro zvýšení hodnoty vědecká společnost.[3]
Definice hypotézy
Jakmile je definován cíl studie, lze navrhnout možné odpovědi na výzkumnou otázku, transformující tuto otázku do a hypotéza. Hlavní návrh se nazývá nulová hypotéza (H0) a je obvykle založen na neustálých znalostech o daném tématu nebo na zjevném výskytu jevů podporovaných hloubkovým přehledem literatury. Můžeme říci, že se jedná o standardní očekávanou odpověď na data za situace v roce test. Obecně platí, že HÓ nepředpokládá žádnou souvislost mezi ošetření. Na druhou stranu alternativní hypotéza je popření HÓ. Předpokládá určitý stupeň asociace mezi léčbou a výsledkem. I když je hypotéza udržována výzkumem otázek a jeho očekávanými a neočekávanými odpověďmi.[3]
Jako příklad zvažte skupiny podobných zvířat (například myši) ve dvou různých stravovacích systémech. Výzkumná otázka by zněla: jaká je nejlepší strava? V tomto případě H0 by bylo, že mezi těmito dvěma dietami u myší není žádný rozdíl metabolismus (H0: μ1 = μ2) a alternativní hypotéza by bylo, že diety mají různé účinky na metabolismus zvířat (H.1: μ1 ≠ μ2).
The hypotéza je definován výzkumníkem podle jeho / jejích zájmů při zodpovězení hlavní otázky. Kromě toho alternativní hypotéza může být více než jedna hypotéza. Může předpokládat nejen rozdíly napříč sledovanými parametry, ale také jejich stupeň rozdílů (tj. vyšší nebo kratší).
Vzorkování
Cílem studie je obvykle pochopit účinek jevu na a populace. v biologie, a populace je definován jako všechny Jednotlivci daného druh, v konkrétní oblasti v danou dobu. V biostatistice je tento koncept rozšířen na řadu sbírek možných studií. Ačkoli v biostatistice a populace není jen Jednotlivci, ale celkem jedna jejich konkrétní složka organismy jako celek genom nebo všechny spermie buňky například pro zvířata nebo pro celkovou plochu listu, například pro rostlinu.
Není možné vzít opatření ze všech prvků a populace. Z tohoto důvodu vzorkování proces je velmi důležitý pro statistická inference. Vzorkování je definováno jako náhodně získat reprezentativní část celé populace, provést zadní závěry o populaci. Takže vzorek může chytit nejvíce variabilita napříč populací.[4] The velikost vzorku je určeno několika věcmi, protože rozsah výzkumu k dostupným zdrojům. v klinický výzkum, zkušební typ, as podřadnost, rovnocennost, a nadřazenost je klíčem při určování vzorku velikost.[3]
Experimentální design
Experimentální návrhy udržovat tyto základní principy experimentální statistika. Existují tři základní experimentální návrhy, které lze náhodně přidělit ošetření celkově pozemky z experiment. Oni jsou zcela náhodný design, randomized block design, a faktoriální návrhy. Ošetření lze v experimentu uspořádat mnoha způsoby. v zemědělství, správný experimentální design je kořenem dobrého studia a uspořádání ošetření v rámci studie je zásadní, protože životní prostředí do značné míry ovlivňuje pozemky (rostliny, hospodářská zvířata, mikroorganismy ). Tato hlavní uspořádání lze v literatuře najít pod názvy „mříže ”,“ Neúplné bloky ”,“rozdělené spiknutí ”,„ Rozšířené bloky ”a mnoho dalších. Všechny návrhy mohou zahrnovat kontrolní parcely, určený výzkumným pracovníkem, poskytnout odhad chyb v době odvození.
v klinické studie, Vzorky jsou obvykle menší než v jiných biologických studiích a ve většině případů životní prostředí účinek lze řídit nebo měřit. Je běžné používat randomizované kontrolované klinické studie, kde jsou výsledky obvykle srovnávány s observační studie designy jako case-control nebo kohorta.[5]
Sběr dat
Při plánování výzkumu je třeba vzít v úvahu metody sběru dat, protože to velmi ovlivňuje velikost vzorku a experimentální design.
Sběr dat se liší podle typu dat. Pro kvalitativní údaje Sběr lze provést pomocí strukturovaných dotazníků nebo pozorováním, s ohledem na přítomnost nebo intenzitu onemocnění, pomocí kritéria skóre pro kategorizaci úrovní výskytu.[6] Pro kvantitativní data, sběr se provádí měřením numerických informací pomocí přístrojů.
V zemědělství a biologických studiích lze údaje o výnosech a jejich složkách získat pomocí metrická opatření. Poranění škůdců a chorob na plotnách se však získává pozorováním, přičemž se berou v úvahu stupnice skóre pro úrovně poškození. Zejména v genetických studiích je třeba považovat moderní metody sběru dat v terénu a laboratoři za vysoce výkonné platformy pro fenotypizaci a genotypizaci. Tyto nástroje umožňují větší experimenty, zatímco je možné vyhodnotit mnoho grafů v kratším čase než metoda sběru dat založená pouze na člověku. Nakonec musí být všechna data, která jsou předmětem zájmu, uložena v organizovaném datovém rámci pro další analýzu.
Analýza a interpretace dat
Popisné nástroje
Data lze reprezentovat prostřednictvím tabulky nebo grafický reprezentace, jako jsou čárové grafy, sloupcové grafy, histogramy, bodový graf. Taky, opatření centrální tendence a variabilita může být velmi užitečné popsat přehled údajů. Postupujte podle několika příkladů:
- Frekvenční tabulky
Jedním typem tabulek jsou frekvence tabulka, která se skládá z dat uspořádaných do řádků a sloupců, kde frekvence je počet výskytů nebo opakování dat. Frekvence může být:[7]
Absolutní: představuje počet výskytů určené hodnoty;
Relativní: získáno dělením absolutní frekvence celkovým počtem;
V dalším příkladu máme počet genů v deseti operony stejného organismu.
Počet genů | Absolutní frekvence | Relativní frekvence |
---|---|---|
1 | 0 | 0 |
2 | 1 | 0.1 |
3 | 6 | 0.6 |
4 | 2 | 0.2 |
5 | 1 | 0.1 |
- Hranový graf
Čárové grafy představují variaci hodnoty nad jinou metrikou, například časem. Obecně jsou hodnoty znázorněny na svislé ose, zatímco časová variace je znázorněna na vodorovné ose.[9]
- Sloupcový graf
A sloupcový graf je graf, který zobrazuje kategorická data jako pruhy představující výšky (svislý pruh) nebo šířky (vodorovný pruh) úměrné reprezentujícím hodnotám. Sloupcové grafy poskytují obrázek, který lze také zobrazit v tabulkovém formátu.[9]
V příkladu sloupcového grafu máme porodnost v Brazílie za prosincové měsíce 2010 až 2016.[8] Prudký pokles v prosinci 2016 odráží vypuknutí Virus Zika v porodnosti v Brazílie.
- Histogramy
The histogram (nebo distribuce frekvence) je grafické znázornění souboru dat v tabulkách a rozdělené do jednotných nebo nejednotných tříd. Poprvé byl představen Karl Pearson.[10]
- Bodový diagram
A bodový diagram je matematický diagram, který používá kartézské souřadnice k zobrazení hodnot datové sady. Bodový graf zobrazuje data jako sadu bodů, přičemž každý představuje hodnotu jedné proměnné určující polohu na vodorovné ose a další proměnné na svislé ose.[11] Také se jim říká bodový graf, bodový graf, scattergramnebo bodový diagram.[12]
- Znamenat
The aritmetický průměr je součet sbírky hodnot () děleno počtem položek této sbírky ().
- Medián
The medián je hodnota uprostřed datové sady.
- Režim
The režimu je hodnota sady dat, která se objevuje nejčastěji.[13]
Typ | Příklad | Výsledek |
---|---|---|
Znamenat | ( 2 + 3 + 3 + 3 + 3 + 3 + 4 + 4 + 11 ) / 9 | 4 |
Medián | 2, 3, 3, 3, 3, 3, 4, 4, 11 | 3 |
Režim | 2, 3, 3, 3, 3, 3, 4, 4, 11 | 3 |
- Box Plot
Box plot je metoda pro grafické znázornění skupin číselných dat. Maximální a minimální hodnoty jsou reprezentovány řádky a mezikvartilový rozsah (IQR) představuje 25–75% dat. Odlehlé hodnoty mohou být vyneseny jako kruhy.
- Korelační koeficienty
Ačkoli korelace mezi dvěma různými druhy dat lze odvodit pomocí grafů, jako je bodový graf, je nutné toto ověřit pomocí numerických informací. Z tohoto důvodu jsou požadovány korelační koeficienty. Poskytují číselnou hodnotu, která odráží sílu asociace.[9]
- Pearsonův korelační koeficient
Pearsonův korelační koeficient je míra asociace mezi dvěma proměnnými, X a Y. Tento koeficient, obvykle představovaný ρ rho) pro obyvatelstvo a r pro vzorek předpokládá hodnoty mezi −1 a 1, kde ρ = 1 představuje perfektní pozitivní korelaci, ρ = -1 představuje perfektní negativní korelaci a ρ = 0 není lineární korelace.[9]
Inferenční statistika
Používá se k výrobě závěry[14] o neznámé populaci podle odhadu a / nebo testování hypotéz. Jinými slovy, je žádoucí získat parametry k popisu sledované populace, ale jelikož jsou údaje omezené, je nutné pro jejich odhad použít reprezentativní vzorek. S tím je možné otestovat dříve definované hypotézy a aplikovat závěry na celou populaci. The standardní chyba průměru je míra variability, která je zásadní pro vyvození závěrů.[4]
Testování hypotéz je nezbytné k vyvození závěrů o populacích, jejichž cílem je odpovědět na výzkumné otázky, jak je uvedeno v části „Plánování výzkumu“. Autoři definovali čtyři kroky, které je třeba nastavit:[4]
- Hypotéza, která má být testována: jak již bylo uvedeno výše, musíme pracovat s definicí a nulová hypotéza (H0), který bude testován, a alternativní hypotéza. Musí však být definovány před implementací experimentu.
- Úroveň důležitosti a rozhodovací pravidlo: Rozhodovací pravidlo závisí na úroveň významnosti, nebo jinými slovy, přijatelná míra chyb (α). Je snadnější si myslet, že definujeme a kritická hodnota která určuje statistickou významnost, když a statistika testu se s tím srovnává. Před experimentem tedy musí být také předdefinováno α.
- Experiment a statistická analýza: To je, když je experiment skutečně implementován podle příslušných experimentální design, jsou shromažďována data a vyhodnocovány vhodnější statistické testy.
- Odvození: Vyrábí se, když nulová hypotéza je zamítnut nebo neodmítnut na základě důkazů, že srovnání p-hodnoty a α přináší. Je zdůrazněno, že opomenutí odmítnout H0 znamená to, že není dostatek důkazů na podporu jejího odmítnutí, ale ne to, že tato hypotéza je pravdivá.
Interval spolehlivosti je rozsah hodnot, které mohou obsahovat skutečnou skutečnou hodnotu parametru při dané určité úrovni spolehlivosti. Prvním krokem je odhad nejlepšího nezaujatého odhadu populačního parametru. Horní hodnota intervalu se získá součtem tohoto odhadu s násobením mezi standardní chybou průměru a úrovní spolehlivosti. Výpočet nižší hodnoty je podobný, ale místo součtu je třeba použít odečtení.[4]
Statistické úvahy
Síla a statistická chyba
Při testování hypotézy jsou možné dva typy statistických chyb: Chyba typu I. a Chyba typu II. Chyba typu I nebo falešně pozitivní je nesprávné odmítnutí skutečné nulové hypotézy a chyby typu II nebo falešně negativní je neschopnost odmítnout nepravdu nulová hypotéza. The úroveň významnosti označený α je míra chyb typu I a měla by být zvolena před provedením zkoušky. Míra chyb typu II je označena β a statistická síla testu je 1 - β.
p-hodnota
The p-hodnota je pravděpodobnost získání výsledků tak extrémních nebo extrémnějších, než jaké byly pozorovány, za předpokladu, že nulová hypotéza (H0) je pravda. Nazývá se také vypočítaná pravděpodobnost. Je běžné zaměňovat p-hodnotu s hladina významnosti (α), ale α je předdefinovaná prahová hodnota pro volání významných výsledků. Pokud je p menší než α, bude nulová hypotéza (H0) je zamítnut.[15]
Vícenásobné testování
Ve více testech stejné hypotézy je pravděpodobnost výskytu falešné pozitiva (míra chyb po rodině) nárůst a některé strategie se používají k řízení tohoto výskytu. Toho je obvykle dosaženo použitím přísnější prahové hodnoty pro odmítnutí nulových hypotéz. The Bonferroniho korekce definuje přijatelnou globální hladinu významnosti, označenou α * a každý test je individuálně porovnáván s hodnotou α = α * / m. Tím je zajištěno, že míra rodinné chyby ve všech m testech je menší nebo rovna α *. Je-li m velké, může být Bonferroniho korekce příliš konzervativní. Alternativou k Bonferroniho korekci je ovládání míra falešných objevů (FDR). FDR kontroluje očekávaný podíl odmítnutých nulové hypotézy (tzv. objevy), které jsou nepravdivé (nesprávná odmítnutí). Tento postup zajišťuje, že u nezávislých testů je míra falešného zjišťování maximálně q *. FDR je tedy méně konzervativní než Bonferroniho korekce a má více energie za cenu více falešných pozitiv.[16]
Chybná specifikace a kontroly robustnosti
Hlavní testovaná hypotéza (např. Žádná souvislost mezi léčbou a výsledky) je často doprovázena dalšími technickými předpoklady (např. O formě rozdělení pravděpodobnosti výsledků), které jsou také součástí nulové hypotézy. Pokud jsou technické předpoklady v praxi porušeny, pak může být null často odmítnuta, i když je hlavní hypotéza pravdivá. O takových odmítnutích se říká, že jsou způsobeny nesprávnou specifikací modelu.[17] Hlavním způsobem boje proti nesprávné specifikaci je ověření, zda se výsledek statistické zkoušky nezmění, když se technické předpoklady mírně změní (tzv. Kontroly robustnosti).
Kritéria výběru modelu
Výběr kritérií modelu vybere nebo modeluje více přibližný skutečný model. The Informační kritérium Akaike (AIC) a Bayesovské informační kritérium (BIC) jsou příklady asymptoticky účinných kritérií.
Vývoj a velká data
Tato sekce potřebuje další citace pro ověření.Prosinec 2016) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
Nedávný vývoj měl velký dopad na biostatistiku. Dvěma důležitými změnami byla schopnost sbírat data ve vysokovýkonném měřítku a schopnost provádět mnohem složitější analýzu pomocí výpočetních technik. To vychází z vývoje v oblastech jako sekvenování technologie, Bioinformatika a Strojové učení (Strojové učení v bioinformatice ).
Použití v datech s vysokou propustností
Nové biomedicínské technologie jako mikročipy, sekvencery nové generace (pro genomiku) a hmotnostní spektrometrie (pro proteomiku) generuje obrovské množství dat, což umožňuje provádět mnoho testů současně.[18] K oddělení signálu od šumu je nutná pečlivá analýza pomocí biostatistických metod. Například microarray by mohl být použit k měření mnoha tisíců genů současně, určení, které z nich mají odlišnou expresi v nemocných buňkách ve srovnání s normálními buňkami. Pouze zlomek genů však bude odlišně exprimován.[19]
Multicollinearity se často vyskytuje v biostatistických podmínkách s vysokou propustností. Kvůli vysoké vzájemné korelaci mezi prediktory (např genová exprese úrovně), informace jednoho prediktoru mohou být obsaženy v jiném. Je možné, že pouze 5% prediktorů odpovídá za 90% variability odpovědi. V takovém případě by bylo možné použít biostatistickou techniku redukce dimenze (například pomocí analýzy hlavních komponent). Klasické statistické techniky jako lineární nebo logistická regrese a lineární diskriminační analýza nepracují dobře pro vysoce dimenzionální data (tj. když je počet pozorování n menší než počet znaků nebo prediktorů p: n
2hodnoty i přes velmi nízkou prediktivní sílu statistického modelu. Tyto klasické statistické techniky (zejména nejmenší čtverce lineární regrese) byly vyvinuty pro nízkodimenzionální data (tj. kde je počet pozorování n mnohem větší než počet prediktorů p: n >> p). V případech vysoké dimenzionality je třeba vždy zvážit nezávislou ověřovací testovací sadu a odpovídající zbytkový součet čtverců (RSS) a R2 sady validačních testů, nikoli testovacích sad.
Často je užitečné shromažďovat informace z více prediktorů společně. Například, Analýza obohacení genové sady (GSEA) uvažuje spíše o narušení celých (funkčně souvisejících) genových sad než jednotlivých genů.[20] Tyto genové sady mohou být známé biochemické dráhy nebo jinak funkčně příbuzné geny. Výhodou tohoto přístupu je, že je robustnější: Je pravděpodobnější, že je zjištěno, že jeden gen je falešně narušen, než je to, že je falešně narušena celá cesta. Kromě toho lze integrovat nahromaděné znalosti o biochemických drahách (jako Signální dráha JAK-STAT ) pomocí tohoto přístupu.
Bioinformatika postupuje v databázích, dolování dat a biologické interpretaci
Vývoj biologické databáze umožňuje ukládání a správu biologických dat s možností zajištění přístupu pro uživatele z celého světa. Jsou užitečné pro výzkumníky, kteří ukládají data, načítají informace a soubory (surové nebo zpracované) pocházející z jiných experimentů nebo indexují vědecké články, PubMed. Další možností je vyhledat požadovaný výraz (gen, protein, nemoc, organismus atd.) A zkontrolovat všechny výsledky související s tímto hledáním. Existují databáze věnované SNP (dbSNP ), znalosti o charakterizaci genů a jejich cestách (KEGG ) a popis genové funkce, která ji klasifikuje podle buněčné složky, molekulární funkce a biologického procesu (Genová ontologie ).[21] Kromě databází, které obsahují specifické molekulární informace, existují i další, které jsou dostatečné v tom smyslu, že ukládají informace o organismu nebo skupině organismů. Jako příklad databáze zaměřené pouze na jeden organismus, která ale obsahuje o něm mnoho údajů, je uvedena Arabidopsis thaliana genetická a molekulární databáze - TAIR.[22] Fytozom,[23] na druhé straně ukládá soubory sestav a anotací desítek rostlinných genomů, které také obsahují nástroje pro vizualizaci a analýzu. Kromě toho existuje propojení mezi některými databázemi při výměně / sdílení informací a hlavní iniciativou byla Mezinárodní spolupráce s databází nukleotidových sekvencí (INSDC)[24] který se týká dat z DDBJ,[25] EMBL-EBI,[26] a NCBI.[27]
V dnešní době vede nárůst velikosti a složitosti molekulárních datových sad k použití výkonných statistických metod poskytovaných algoritmy počítačové vědy, které jsou vyvíjeny strojové učení plocha. Proto dolování dat a strojové učení umožňují detekci vzorů v datech se složitou strukturou, jako jsou biologické, pomocí metod pod dohledem a neřízené učení, regrese, detekce shluky a dolování asociačních pravidel, mezi ostatními.[21] Abychom označili některé z nich, samoorganizující se mapy a k-prostředek jsou příklady klastrových algoritmů; neuronové sítě provádění a podporovat vektorové stroje modely jsou příklady běžných algoritmů strojového učení.
Spolupráce mezi molekulárními biology, bioinformatiky, statistiky a počítačovými vědci je důležitá pro správné provedení experimentu, počínaje plánováním, generováním a analýzou dat a konče biologickou interpretací výsledků.[21]
Využití výpočetně náročných metod
Na druhé straně nástup moderní výpočetní techniky a relativně levných výpočetních zdrojů umožnil počítačově náročné biostatistické metody, jako je bootstrapping a opětovné vzorkování metody.
Poslední dobou, náhodné lesy získaly popularitu jako způsob provedení statistická klasifikace. Náhodné lesní techniky generují panel rozhodovacích stromů. Výhodou rozhodovacích stromů je, že je můžete kreslit a interpretovat (i při základním porozumění matematice a statistice). Náhodné lesy byly tedy použity pro systémy podpory klinického rozhodování.[Citace je zapotřebí ]
Aplikace
Veřejné zdraví
Veřejné zdraví, počítaje v to epidemiologie, výzkum zdravotnických služeb, výživa, environmentální zdraví a politika a řízení zdravotní péče. V těchto lék obsahu, je důležité vzít v úvahu návrh a analýzu klinické testy. Jako jeden příklad lze uvést posouzení stavu závažnosti pacienta s prognózou výsledku onemocnění.
Díky novým technologiím a znalostem genetiky se nyní používá také biostatistika Systémová medicína, který spočívá v personalizovanějším léku. K tomu dochází k integraci dat z různých zdrojů, včetně konvenčních údajů o pacientech, klinicko-patologických parametrů, molekulárních a genetických dat a také dat generovaných dalšími technologiemi nové omiky.[28]
Kvantitativní genetika
Studium Populační genetika a Statistická genetika za účelem propojení variace v genotyp se změnou v fenotyp. Jinými slovy, je žádoucí objevit genetický základ měřitelného znaku, kvantitativního znaku, který je pod polygenní kontrolou. Nazývá se oblast genomu, která je zodpovědná za kontinuální znak Lokalita kvantitativních znaků (QTL). Studium QTL se stalo proveditelným pomocí molekulární markery a měření vlastností v populacích, ale jejich mapování vyžaduje získání populace z experimentálního křížení, jako je F2 nebo Rekombinantní inbrední kmeny / řádky (RIL). Chcete-li vyhledat oblasti QTL v genomu, a genová mapa musí být postaveny na základě propojení. Mezi nejznámější algoritmy mapování QTL patří Interval Mapping, Composite Interval Mapping a Multiple Interval Mapping.[29]
Rozlišení mapování QTL je však narušeno množstvím testované rekombinace, což je problém pro druhy, u kterých je obtížné získat velké potomky. Kromě toho je alelová rozmanitost omezena na jednotlivce pocházející z kontrastních rodičů, což omezuje studie rozmanitosti alel, když máme skupinu jednotlivců představujících přirozenou populaci.[30] Z tohoto důvodu Celomanomová asociační studie bylo navrženo za účelem identifikace QTL na základě vazebná nerovnováha, to je nenáhodná asociace mezi vlastnostmi a molekulárními markery. Využilo to vývoj vysoké propustnosti Genotypizace SNP.[31]
v zvíře a pěstování rostlin, používání značek v výběr zaměřené na chov, zejména molekulární, spolupracovaly na vývoji výběr pomocí značky. Zatímco QTL mapování je omezené kvůli rozlišení, GWAS nemá dostatek energie, když jsou vzácné varianty malého efektu, které jsou také ovlivněny prostředím. Koncept Genomic Selection (GS) tedy vzniká za účelem využití všech molekulárních markerů při výběru a umožnění predikce výkonu kandidátů v tomto výběru. Cílem návrhu je genotypizovat a fenotypizovat tréninkovou populaci, vyvinout model, který může získat odhadované genomické reprodukční hodnoty (GEBV) jedinců patřících do genotypové, ale nikoli fenotypové populace, nazývané testovací populace.[32] Tento druh studie by také mohl zahrnovat validační populaci, uvažující v konceptu křížová validace, ve kterém jsou skutečné výsledky fenotypu měřené v této populaci porovnány s výsledky fenotypu na základě predikce, která byla použita ke kontrole přesnosti modelu.
Stručně řečeno, některé body týkající se aplikace kvantitativní genetiky jsou:
- To se používá v zemědělství ke zlepšení plodin (Pěstování rostlin ) a hospodářská zvířata (Chov zvířat ).
- V biomedicínském výzkumu může tato práce pomoci při hledání kandidátů gen alely které mohou způsobit nebo ovlivnit predispozici k chorobám v lidská genetika
Data výrazů
Studie diferenciální exprese genů z RNA-sekv údaje, pokud jde o RT-qPCR a mikročipy vyžaduje srovnání podmínek. Cílem je identifikovat geny, které mají významnou změnu v hojnosti mezi různými podmínkami. Poté jsou experimenty navrženy vhodně, s replikáty pro každý stav / léčbu, v případě potřeby randomizací a blokováním. V RNA-Seq kvantifikace exprese využívá informace mapovaných čtení, která jsou shrnuta v nějaké genetické jednotce, jako exony které jsou součástí genové sekvence. Tak jako microarray výsledky lze aproximovat normální distribucí, údaje o počtech RNA-Seq jsou lépe vysvětleny jinými distribucemi. První použitá distribuce byla jed jeden, ale podceňuje to chybu vzorku, což vede k falešným pozitivům. V současné době je biologická variace zvažována metodami, které odhadují disperzní parametr a negativní binomické rozdělení. Zobecněné lineární modely se používají k provádění testů pro statistickou významnost a protože počet genů je vysoký, je třeba zvážit korekci více testů.[33] Několik příkladů jiné analýzy na genomika data pocházejí z microarray nebo proteomika experimenty.[34][35] Často se týká nemocí nebo stadií nemoci.[36]
Další studie
- Ekologie, ekologické předpovědi
- Biologický sekvenční analýza[37]
- Systémová biologie pro odvození genové sítě nebo analýzu drah.[38]
- Populační dynamika, zejména pokud jde o věda o rybolovu.
- Fylogenetika a vývoj
Nástroje
Existuje spousta nástrojů, které lze použít ke statistické analýze biologických dat. Většina z nich je užitečná v jiných oblastech znalostí, které pokrývají velké množství aplikací (v abecedním pořadí). Zde je stručný popis některých z nich:
- ASReml: Další software vyvinutý společností VSNi[39] které lze použít také v prostředí R jako balíček. Je vyvinut pro odhad komponent rozptylu v rámci obecného lineárního smíšeného modelu pomocí omezená maximální věrohodnost (REML). Povoleny jsou modely s pevnými a náhodnými efekty a vnořené nebo zkřížené. Poskytuje možnost vyšetřovat různé variance-kovariance maticové struktury.
- CycDesigN:[40] Počítačový balíček vyvinutý společností VSNi[39] který pomáhá vědcům vytvářet experimentální návrhy a analyzovat data pocházející z designu přítomného v jedné ze tří tříd zpracovávaných CycDesigN. Tyto třídy jsou vyřešitelné, nerozpoznatelné, částečně replikované a crossover designy. Zahrnuje méně používané vzory, ty latinizované, jako t-latinizovaný design.[41]
- oranžový: Programovací rozhraní pro zpracování dat na vysoké úrovni, dolování dat a vizualizaci dat. Zahrňte nástroje pro genovou expresi a genomiku.[21]
- R: An otevřený zdroj prostředí a programovací jazyk věnovaný statistickým výpočtům a grafice. Jedná se o implementaci S jazyk udržovaný CRANem.[42] Kromě svých funkcí pro čtení datových tabulek, vytváření popisných statistik, vývoj a hodnocení modelů obsahuje jeho úložiště balíčky vyvinuté vědci z celého světa. To umožňuje vývoj napsaných funkcí pro statistickou analýzu dat pocházejících z konkrétních aplikací. Například v případě bioinformatiky existují balíčky umístěné v hlavním úložišti (CRAN) a v dalších Biovodič. Je také možné použít vyvíjené balíčky, které jsou sdíleny v hostingových službách jako GitHub.
- SAS: Software pro analýzu dat široce používaný, procházející univerzitami, službami a průmyslem. Vyvinutá společností se stejným názvem (Institut SAS ), používá Jazyk SAS pro programování.
- PLA 3.0:[43] Je software pro biostatistickou analýzu pro regulovaná prostředí (např. Testování léků), který podporuje kvantitativní odpovědi (Parallel-Line, Parallel-Logistics, Slope-Ratio) a Dichotomous Assays (Quantal Response, Binary Assays). Podporuje také metody vážení pro kombinované výpočty a automatickou agregaci dat nezávislých dat z rozboru.
- Weka: A Jáva software pro strojové učení a dolování dat, včetně nástrojů a metod pro vizualizaci, shlukování, regresi, asociační pravidlo a klasifikaci. K dispozici jsou nástroje pro křížovou validaci, bootstrapping a modul porovnání algoritmů. Weka může také běžet v jiných programovacích jazycích jako Perl nebo R.[21]
Rozsah a vzdělávací programy
Almost all educational programmes in biostatistics are at postgraduální úroveň. They are most often found in schools of public health, affiliated with schools of medicine, forestry, or agriculture, or as a focus of application in departments of statistics.
In the United States, where several universities have dedicated biostatistics departments, many other top-tier universities integrate biostatistics faculty into statistics or other departments, such as epidemiologie. Thus, departments carrying the name "biostatistics" may exist under quite different structures. For instance, relatively new biostatistics departments have been founded with a focus on bioinformatika a computational biology, whereas older departments, typically affiliated with schools of veřejné zdraví, will have more traditional lines of research involving epidemiological studies and klinické testy as well as bioinformatics. In larger universities around the world, where both a statistics and a biostatistics department exist, the degree of integration between the two departments may range from the bare minimum to very close collaboration. In general, the difference between a statistics program and a biostatistics program is twofold: (i) statistics departments will often host theoretical/methodological research which are less common in biostatistics programs and (ii) statistics departments have lines of research that may include biomedical applications but also other areas such as industry (kontrola kvality ), business and ekonomika and biological areas other than medicine.
Specialized journals
- Viz také: List of biostatistics journals
- Biostatistika[44]
- International Journal of Biostatistics[45]
- Journal of Epidemiology and Biostatistics[46]
- Biostatistics and Public Health[47]
- Biometrie[48]
- Biometrika[49]
- Biometrical Journal[50]
- Communications in Biometry and Crop Science[51]
- Statistical Applications in Genetics and Molecular Biology[52]
- Statistical Methods in Medical Research[53]
- Pharmaceutical Statistics[54]
- Statistika v medicíně[55]
Viz také
- Bioinformatika
- Epidemiological method
- Epidemiologie
- Group size measures
- Health indicator
- Matematická a teoretická biologie
Reference
- ^ Gunter, Chris (10 December 2008). "Quantitative Genetics". Příroda. 456 (7223): 719. Bibcode:2008Natur.456..719G. doi:10.1038/456719a. PMID 19079046.
- ^ Charles T. Munger (2003-10-03). "Academic Economics: Strengths and Faults After Considering Interdisciplinary Needs" (PDF).
- ^ A b C Nizamuddin, Sarah L.; Nizamuddin, Junaid; Mueller, Ariel; Ramakrishna, Harish; Shahul, Sajid S. (October 2017). "Developing a Hypothesis and Statistical Planning". Journal of Cardiothoracic and Vascular Anesthesia. 31 (5): 1878–1882. doi:10.1053/j.jvca.2017.04.020. PMID 28778775.
- ^ A b C d Overholser, Brian R; Sowinski, Kevin M (2017). "Biostatistics Primer: Part I". Nutrition in Clinical Practice. 22 (6): 629–35. doi:10.1177/0115426507022006629. PMID 18042950.
- ^ Szczech, Lynda Anne; Coladonato, Joseph A.; Owen, William F. (4 October 2002). "Key Concepts in Biostatistics: Using Statistics to Answer the Question "Is There a Difference?"". Seminars in Dialysis. 15 (5): 347–351. doi:10.1046/j.1525-139X.2002.00085.x. PMID 12358639.
- ^ Sandelowski, Margarete (2000). "Combining Qualitative and Quantitative Sampling, Data Collection, and Analysis Techniques in Mixed-Method Studies". Research in Nursing & Health. 23 (3): 246–255. CiteSeerX 10.1.1.472.7825. doi:10.1002/1098-240X(200006)23:3<246::AID-NUR9>3.0.CO;2-H. PMID 10871540.
- ^ Maths, Sangaku. "Absolute, relative, cumulative frequency and statistical tables – Probability and Statistics". www.sangakoo.com. Citováno 2018-04-10.
- ^ A b "DATASUS: TabNet Win32 3.0: Nascidos vivos – Brasil". DATASUS: Tecnologia da Informação a Serviço do SUS.
- ^ A b C d Forthofer, Ronald N.; Lee, Eun Sul (1995). Introduction to Biostatistics. A Guide to Design, Analysis, and Discovery. Akademický tisk. ISBN 978-0-12-262270-0.
- ^ Pearson, Karl (1895-01-01). "X. Contributions to the mathematical theory of evolution.—II. Skew variation in homogeneous material". Phil. Trans. R. Soc. Lond. A. 186: 343–414. Bibcode:1895RSPTA.186..343P. doi:10.1098/rsta.1895.0010. ISSN 0264-3820.
- ^ Utts, Jessica M. (2005). Seeing through statistics (3. vyd.). Belmont, CA: Thomson, Brooks/Cole. ISBN 978-0534394028. OCLC 56568530.
- ^ B., Jarrell, Stephen (1994). Basic statistics. Dubuque, Iowa: Wm. C. Brown Pub. ISBN 978-0697215956. OCLC 30301196.
- ^ Gujarati, Damodar N. (2006). Ekonometrie. McGraw-Hill Irwin.
- ^ "Essentials of Biostatistics in Public Health & Essentials of Biostatistics Workbook: Statistical Computing Using Excel". Australský a Nový Zéland Journal of Public Health. 33 (2): 196–197. 2009. doi:10.1111/j.1753-6405.2009.00372.x. ISSN 1326-0200.
- ^ Baker, Monya (2016). "Statisticians issue warning over misuse of P values". Příroda. 531 (7593): 151. Bibcode:2016Natur.531..151B. doi:10.1038/nature.2016.19503. PMID 26961635.
- ^ Benjamini, Y. & Hochberg, Y. Controlling the False Discovery Rate: A Practical and Powerful Approach to Multiple Testing. Journal of the Royal Statistical Society. Series B (Methodological) 57, 289–300 (1995).
- ^ "Null hypothesis". www.statlect.com. Citováno 2018-05-08.
- ^ Hayden, Erika Check (8 February 2012). "Biostatistics: Revealing analysis". Příroda. 482 (7384): 263–265. doi:10.1038/nj7384-263a. PMID 22329008.
- ^ Efron, Bradley (February 2008). "Microarrays, Empirical Bayes and the Two-Groups Model". Statistická věda. 23 (1): 1–22. arXiv:0808.0572. doi:10.1214/07-STS236. S2CID 8417479.
- ^ Subramanian, A.; Tamayo, P.; Mootha, V. K.; Mukherjee, S .; Ebert, B. L.; Gillette, M. A.; Paulovich, A.; Pomeroy, S. L.; Golub, T. R.; Lander, E. S.; Mesirov, J. P. (30 September 2005). "Gene set enrichment analysis: A knowledge-based approach for interpreting genome-wide expression profiles". Sborník Národní akademie věd. 102 (43): 15545–15550. Bibcode:2005PNAS..10215545S. doi:10.1073/pnas.0506580102. PMC 1239896. PMID 16199517.
- ^ A b C d E Moore, Jason H (2007). "Bioinformatics". Journal of Cellular Physiology. 213 (2): 365–9. doi:10.1002/jcp.21218. PMID 17654500.
- ^ "TAIR - Home Page". www.arabidopsis.org.
- ^ "Phytozome". phytozome.jgi.doe.gov.
- ^ "International Nucleotide Sequence Database Collaboration - INSDC". www.insdc.org.
- ^ "Top". www.ddbj.nig.ac.jp.
- ^ "The European Bioinformatics Institute < EMBL-EBI". www.ebi.ac.uk.
- ^ Information, National Center for Biotechnology; Pike, U. S. National Library of Medicine 8600 Rockville; MD, Bethesda; Usa, 20894. "National Center for Biotechnology Information". www.ncbi.nlm.nih.gov.CS1 maint: číselné názvy: seznam autorů (odkaz)
- ^ Apweiler, Rolf; et al. (2018). "Whither systems medicine?". Molecular Medicine. 50 (3): e453. doi:10.1038/emm.2017.290. PMC 5898894. PMID 29497170.
- ^ Zeng, Zhao-Bang (2005). "QTL mapping and the genetic basis of adaptation: Recent developments". Genetica. 123 (1–2): 25–37. doi:10.1007/s10709-004-2705-0. PMID 15881678. S2CID 1094152.
- ^ Korte, Arthur; Farlow, Ashley (2013). "The advantages and limitations of trait analysis with GWAS: A review". Plant Methods. 9: 29. doi:10.1186/1746-4811-9-29. PMC 3750305. PMID 23876160.
- ^ Zhu, Chengsong; Gore, Michael; Buckler, Edward S; Yu, Jianming (2008). "Status and Prospects of Association Mapping in Plants". The Plant Genome. 1: 5–20. doi:10.3835/plantgenome2008.02.0089.
- ^ Crossa, José; Pérez-Rodríguez, Paulino; Cuevas, Jaime; Montesinos-López, Osval; Jarquín, Diego; De Los Campos, Gustavo; Burgueño, Juan; González-Camacho, Juan M; Pérez-Elizalde, Sergio; Beyene, Yoseph; Dreisigacker, Susanne; Singh, Ravi; Zhang, Xuecai; Gowda, Manje; Roorkiwal, Manish; Rutkoski, Jessica; Varshney, Rajeev K (2017). "Genomic Selection in Plant Breeding: Methods, Models, and Perspectives" (PDF). Trendy ve vědě o rostlinách. 22 (11): 961–975. doi:10.1016/j.tplants.2017.08.011. PMID 28965742.
- ^ Oshlack, Alicia; Robinson, Mark D; Young, Matthew D (2010). "From RNA-seq reads to differential expression results". Genome Biology. 11 (12): 220. doi:10.1186/gb-2010-11-12-220. PMC 3046478. PMID 21176179.
- ^ Helen Causton; John Quackenbush; Alvis Brazma (2003). Statistical Analysis of Gene Expression Microarray Data. Wiley-Blackwell.
- ^ Terry Speed (2003). Microarray Gene Expression Data Analysis: A Beginner's Guide. Chapman & Hall/CRC.
- ^ Frank Emmert-Streib; Matthias Dehmer (2010). Medical Biostatistics for Complex Diseases. Wiley-Blackwell. ISBN 978-3-527-32585-6.
- ^ Warren J. Ewens; Gregory R. Grant (2004). Statistical Methods in Bioinformatics: An Introduction. Springer.
- ^ Matthias Dehmer; Frank Emmert-Streib; Armin Graber; Armindo Salvador (2011). Applied Statistics for Network Biology: Methods in Systems Biology. Wiley-Blackwell. ISBN 978-3-527-32750-8.
- ^ A b "Home - VSN International". www.vsni.co.uk.
- ^ "CycDesigN - VSN International". www.vsni.co.uk.
- ^ Piepho, Hans-Peter; Williams, Emlyn R; Michel, Volker (2015). "Beyond Latin Squares: A Brief Tour of Row-Column Designs". Agronomy Journal. 107 (6): 2263. doi:10.2134/agronj15.0144.
- ^ "The Comprehensive R Archive Network". cran.r-project.org.
- ^ Stegmann, Dr Ralf (2019-07-01). "PLA 3.0". PLA 3.0 – Software for Biostatistical Analysis. Citováno 2019-07-02.
- ^ "Biostatistics - Oxford Academic". OUP Academic.
- ^ https://www.degruyter.com/view/j/ijb
- ^ Staff, NCBI (15 June 2018). "PubMed Journals will be shut down".
- ^ https://ebph.it/ Epidemiologie
- ^ "Biometrics - Wiley Online Library". onlinelibrary.wiley.com.
- ^ "Biometrika - Oxford Academic". OUP Academic.
- ^ "Biometrical Journal - Wiley Online Library". onlinelibrary.wiley.com.
- ^ "Communications in Biometry and Crop Science". agrobiol.sggw.waw.pl.
- ^ "Statistical Applications in Genetics and Molecular Biology". www.degruyter.com. 1 May 2002.
- ^ "Statistical Methods in Medical Research". SAGE Journals.
- ^ "Pharmaceutical Statistics - Wiley Online Library". onlinelibrary.wiley.com.
- ^ "Statistics in Medicine - Wiley Online Library". onlinelibrary.wiley.com.
externí odkazy
Média související s Biostatistika na Wikimedia Commons