Randomizace zachovávající stupeň - Degree-preserving randomization

Randomizace pro uchování titulu je technika používaná v Síťová věda který si klade za cíl posoudit, zda by variace pozorované v daném grafu mohly být v pozorované síti jednoduše artefaktem inherentních strukturálních vlastností grafu, spíše než vlastnostmi jedinečnými pro uzly.

Pozadí

Katalogizováno již v roce 1996,[1] nejjednodušší implementace randomizace zachovávající stupeň spoléhá na a Monte Carlo algoritmus, který náhodně přeuspořádává nebo „přepojuje“ síť tak, že při dostatečném počtu přepojení je distribuce stupně sítě identická s počátečním rozdělením sítě, ačkoli topologická struktura sítě se zcela odlišuje od původní síť.

Demonstrace jediné iterace algoritmu Randomizace pro uchování titulu.

Randomizace pro uchování titulu, i když má mnoho různých forem, má obvykle podobu relativně jednoduchého přístupu: pro jakoukoli síť skládající se z uzly s okraje, vyberte dva dyadicky vázané uzly. U každého z těchto dvojic dvojic přepněte okraje tak, aby se nové dvojice dvojic neodpovídaly. Po dostatečném počtu těchto nesouladů síť stále více ztrácí svou původní pozorovanou topografii.

Jak je běžné u algoritmů založených na Markovovy řetězy, počet iterací nebo jednotlivých drátů, které se musí na daném grafu vyskytnout tak, aby byl graf dostatečně náhodný a odlišný od původního grafu, není znám, ačkoli Espinoza[2] tvrdí, že bezpečná minimální prahová hodnota je , kde „je nejméně 100“ (Espinoza). Jiní poskytli informace k tomuto číslu, včetně jednoho autora, který uvádí, že bezpečné minimum může být místo toho alespoň kde epsilon leží v rozmezí mezi a , ačkoli správné číslo v současné době není známo.[3][4]

Použití

Existuje několik případů, kdy publikovaný výzkum výslovně použil stupeň zachování randomizace za účelem analýzy vlastností sítě. Dekker[5] použité přepojení za účelem přesnějšího modelování pozorovaných sociálních sítí přidáním sekundární proměnné, , který zavádí zaujatost na vysoké úrovni. Liu a kol.[6] dále použili stupeň zachování randomizace, aby tvrdili, že Centrální kontrola, metrika, kterou identifikují, se ve srovnání s Control Centrality an Erdős – Rényiho model obsahující stejný počet uzly v jejich simulacích - Liu et al. také využili randomizační modely zachovávající stupeň při následném zkoumání práce ovladatelnost v síti.[7]

Dále byla provedena určitá práce při zkoumání toho, jak lze randomizaci při uchování titulu použít při řešení úvah o anonymitě ve výzkumu síťových dat, což se ukázalo jako důvod k obavám v Analýza sociálních sítí, jako v případě studie Lewis et al.[8][9] Nakonec práce provedená Yingem a Wu, počínaje základem Randomizace uchování titulu a poté předáním několika modifikací, ukázala mírný pokrok v ochraně anonymity, aniž by byla ohrožena integrita základní užitečnosti sledované sítě.[10]

Metoda je navíc svou povahou podobná široce používané Exponenciální modely náhodných grafů popularizovaný ve společenských vědách,[11][12] a skutečně různé formy modelování sítí proti pozorovaným sítím, aby bylo možné identifikovat a teoretizovat rozdíly vyjádřené ve skutečných sítích. Důležité je, že randomizace uchování titulu poskytuje jednoduchý algoritmický návrh pro ty, kteří jsou obeznámeni s programováním, aby použili model na dostupnou pozorovanou síť.

Příklad

Následuje malý příklad, který ukazuje, jak lze aplikovat randomizaci na uchování titulu na pozorovanou síť ve snaze porozumět síti proti jinak náhodným změnám při zachování aspektu distribuce stupňů v síti. The Asociace internetových výzkumníkůListserv která tvoří většinu diskusních vláken obklopujících jejich práci. Na něm členové zveřejňují informace o svém vlastním výzkumu, nadcházejících konferencích, výzvách k předložení příspěvků a také se navzájem zapojují do věcných diskusí ve svém oboru. Tyto e-maily mohou zase tvořit cílený a dočasný síťový graf, kde uzly jsou jednotlivé e-mailové účty patřící do Listservu a okraje jsou případy, kdy jedna e-mailová adresa odpovídá na jinou e-mailovou adresu v Listservu.

Výsledky randomizačních pokusů o zachování stupně.

V této pozorované síti jsou vlastnosti Listservu relativně snadné vypočítat - pro síť 3 235 jednotlivých e-mailových účtů a celkem 9 824 burz pozorované vzájemnost sítě je přibližně 0,074 a [Průměrná délka cesty | průměrná délka cesty] je přibližně 4,46. Lze k těmto hodnotám dospět jednoduše prostřednictvím povahy vlastní struktury sítě?

Uplatnění pravidlo, tato síť by vyžadovala přibližně 67 861 jednotlivých okrajových drátů, aby se vytvořil pravděpodobně dostatečně náhodný graf se zachováním stupně. Pokud zkonstruujeme mnoho náhodných grafů zachovávajících stupeň ze skutečného grafu, můžeme vytvořit prostor pravděpodobnosti pro charakteristiky, jako je reciprocita a průměrná délka dráhy, a posoudit míru, do jaké mohla síť tyto charakteristiky náhodně vyjádřit. 534 sítí bylo vygenerováno pomocí randomizace uchování titulu. Protože reciprocita i průměrná délka cesty v tomto grafu jsou normálně distribuovány a protože standardní odchylka pro reciprocitu i průměrnou délku cesty jsou příliš úzké, aby zahrnovaly pozorovaný případ, můžeme rozumně předpokládat, že tato síť vyjadřuje charakteristiky, které nejsou náhodné (a tedy otevřené pro další teorii a modelování).

Reference

  1. ^ Rao, A Ramachandra; Jana, Rabíndranáth; Bandyopadhyay, Suraj (1996). "Metoda Markovova řetězce Monte Carlo pro generování náhodných (0, 1) matic s danými okraji" (PDF). Indian Journal of Statistics Series A. Citováno 5. listopadu 2014.
  2. ^ Espinoza, max. „Metody randomizace v síti: Negativní kontrolní studie“ (PDF). Citovat deník vyžaduje | deník = (Pomoc)
  3. ^ Re: [igraph] Přepojení velkého grafu na zachování stupně
  4. ^ Pinar, Ali; Ray, Jaideep; Seshadri, S. (2012), Už jsme tam? Kdy zastavit Markovův řetězec při generování náhodných grafů (PDF), arXiv:1202.3473, Bibcode:2012arXiv1202.3473R
  5. ^ Dekker, A.H. (2007), „Realistické sociální sítě pro simulaci pomocí síťového přepojování“ (PDF), Sborník MODSIM 2007
  6. ^ Liu, Y-Y .; Slotine, J-J; Barabási, A-L (2012), „Control Centrality and Hierarchical Structure in Complex Networks“, PLOS ONE, 7 (9): e44459, arXiv:1203.2655, Bibcode:2012PLoSO ... 744459L, doi:10.1371 / journal.pone.0044459, PMC  3459977, PMID  23028542
  7. ^ Liu, Yang-Yu; Slotine, Jean-Jacques; Barabási, Albert-Laszlo (2013), „Vliv korelací na ovladatelnost sítě“, Sci. Rep., 3: 1067, arXiv:1203.5161, Bibcode:2013NatSR ... 3E1067P, doi:10.1038 / srep01067, PMC  3545232, PMID  23323210
  8. ^ Parry, Marc (10. července 2011), „Výzkumníci z Harvardu obviněni z porušení soukromí studentů“, Kronika vysokoškolského vzdělávání, vyvoláno 5. listopadu 2014
  9. ^ Lewis, Kevin; Kaufman, Jason; Gonzalez, Marco; Wimmer, Andreas; Christakis, Nicholas (2008), „Chuti, vazby a čas: nový soubor dat sociální sítě využívající Facebook.com“ (PDF), Sociální sítě, 30 (4): 330–342, CiteSeerX  10.1.1.158.9087, doi:10.1016 / j.socnet.2008.07.002
  10. ^ Ying, Xiaowei; Wu, Xintao (2008), „Randomizace sociálních sítí: přístup k zachování spektra“, SDM: 739–750, CiteSeerX  10.1.1.140.6647, doi:10.1137/1.9781611972788.67, ISBN  978-0-89871-654-2
  11. ^ Snijders, Tom AB. (2002), „Markovův řetězec Monte Carlo odhad exponenciálních náhodných modelů grafů“, Journal of Social Structure, 3 (2): 1–40
  12. ^ Robins, Garry; Patterson, Pip; Kalish, Yuval; Lusher, Dean (2007), „Úvod do exponenciálních modelů náhodných grafů pro sociální sítě“, Sociální sítě, 29 (2): 173–191, doi:10.1016 / j.socnet.2006.08.002, hdl:1959.3/216571

externí odkazy