Statisticky nepravděpodobná fráze - Statistically improbable phrase
A statisticky nepravděpodobná fráze (SIP) je fráze nebo sada slov, která se v dokumentu (nebo sbírce dokumentů) vyskytují častěji než v některých větších korpus.[1][2][3] Amazon.com používá tento koncept při určování klíčových slov pro danou knihu nebo kapitolu, protože klíčová slova knihy nebo kapitoly se pravděpodobně v dané části objeví nepřiměřeně.[4][5] Christian Rudder také použil tento koncept s daty z online seznamovací profily a Cvrlikání příspěvky k určení frází nejcharakterističtějších pro danou rasu nebo pohlaví v jeho knize Dataclysm.[6]
Příklad
V dokumentu o počítačích bude nejběžnějším slovem pravděpodobně slovo „the“, ale protože „the“ je nejčastěji používaným slovem v anglickém jazyce, je pravděpodobné, že jakýkoli daný dokument bude mít slovo „the“ používán velmi často. Fráze jako „explicitní logický algoritmus“ se však v dokumentu může vyskytovat mnohem rychleji, než je průměrná rychlost v anglickém jazyce. Z tohoto důvodu je nepravděpodobné, že se v daném dokumentu vyskytne fráze, ale dělal v daném dokumentu. „Explicitní logický algoritmus“ by byl statisticky nepravděpodobná fráze.
Statisticky nepravděpodobné Darwinovy fráze O původu druhů mohlo by být: mírné produkce, rody sestupné, přechodové gradace, neznámý předek, fosiliferní formace, naše domácí plemena, modifikovaní potomci, pochybné formy, formy blízce spřízněné, výhodné varianty, enormně vzdálené, přechodné stupně, velmi odlišné druhy a potomci křížence.[7]
Viz také
- Kolokace - Jakákoli řada slov, která se vyskytují častěji, než by se dalo očekávat náhodou
- Googlewhack - Dvojice slov vyskytujících se na jedné webové stránce indexované Googlem
- tf-idf - Statistika používaná při získávání informací a těžbě textu
Reference
- ^ „SIPping Wikipedia“ (PDF). Kurzy.cms.caltech.edu. Citováno 2017-01-01.
- ^ Jonathan Bailey (3. července 2012). „Jak dlouhá by měla být statisticky nepravděpodobná fráze?“. Plagiátorství dnes.
- ^ Errami, Mounir; Sun, Zhaohui; George, Angela C .; Long, Tara C .; Skinner, Michael A .; Wren, Jonathan D .; Garner, Harold R. (1. června 2010). „Identifikace duplicitního obsahu pomocí statisticky nepravděpodobných frází“. Bioinformatika. 26 (11): 1453–1457. doi:10.1093 / bioinformatika / btq146. PMC 2872002. PMID 20472545. Citováno 1. ledna 2017 - přes bioinformatics.oxfordjournals.org.
- ^ „Co jsou statisticky nepravděpodobné fráze?“. Amazon.com. Citováno 2007-12-18.
- ^ Weeks, Linton (30. srpna 2005). „Vitalské statistiky Amazonu ukazují, jak se knihy hromadí“. The Washington Post. Citováno 8. září 2015.
- ^ Kormidlo, Christian (2014). Dataclysm: Kdo jsme, když si myslíme, že se nikdo nedívá. New York: Crown Publishers. ISBN 978-0-385-34737-2.
- ^ Sociologicky nepravděpodobné fráze Křivé dřevo duben 2005